搜索 AI Search Rules & Tips
1. 遵守中国大陆相关法律法规
2. 请勿滥用 AI 答案作为跟帖
3. 推荐:Free ChatGPT List
4. AI 作品:〈云游博物馆〉

AI 上周热点#011

查看: 627|回复: 2
shubuluoage 发表于 2025-3-25 21:24:24
更多咨询在微信公众号“鼠部落”首发,本周刊每周更新,欢迎您关注、点赞、转发!
212737tohm5dq11xnnmonh.jpg

AI 总结
OpenAI发布了更人性化的语音模型,百度发布了Ernie 4.5和Ernie X1,Anthropic为Claude增加了网络搜索功能,Meta AI登陆欧盟但功能受限。其他新闻包括:Roblox、Allen AI、英伟达、Stability AI和谷歌发布了新的AI模型和工具;xAI发布了图像生成API;1X公司将在2025年测试其人形机器人;Meta的Llama模型下载量达10亿;xAI收购了一家生成式AI视频初创公司;Perplexity寻求10亿美元融资;苹果重组AI领导层;BotQ公司将建机器人工厂;多项AI研究取得进展等。

以下全文
OpenAI发布新音频模型,让AI代理的声音比以往任何时候都更人性化
image.jpg
OpenAI推出了一套新的音频模型,旨在使AI语音代理听起来更像人声并更具响应性。此次发布包括两个新的语音转文本模型,GPT-4o-transcribe和GPT-4o-mini-transcribe,它们在多种语言的转录准确性方面优于之前的模型,即使在具有挑战性的场景中,例如理解不同的口音和过滤背景噪音。新的GPT-4o-mini-tts文本转语音模型允许开发者控制AI语音的音调和表达方式,OpenAI称之为“可控性”。此外,更新后的Agents SDK简化了文本代理到语音代理的转换。

百度发布了两个新版本的AI模型文心一言
image2.jpg
百度发布了其人工智能模型ERNIE的两个新版本:ERNIE 4.5和ERNIE X1。该公司声称,ERNIE X1的性能与DeepSeek R1相当,但成本只有后者的一半,而ERNIE 4.5由于其“高情商”而得到了增强,能够理解表情包和讽刺。这两个模型都具有多模态能力,这意味着它们可以处理视频、图像、音频和文本。尽管是OpenAI的ChatGPT的早期竞争对手,但百度在实现广泛应用方面面临挑战。该公司计划在今年晚些时候推出ERNIE 5,并承诺进一步增强多模态功能。

Anthropic为其Claude聊天机器人添加了网络搜索功能
image3.jpg
Anthropic的AI聊天机器人Claude增加了网络搜索功能,使其能够搜索互联网信息来完善其回复。此功能目前仅限美国付费用户使用,计划将来扩展到免费用户和其他国家。网络搜索功能与最新模型Claude 3.7 Sonnet配合使用,并提供直接引用以方便事实核查。然而,该功能在处理与时事相关的提问时触发效果不稳定。此更新使Claude与其他AI聊天机器人(如OpenAI的ChatGPT、谷歌的Gemini和Mistral的Le Chat)看齐,尽管之前曾声称Claude的设计是自包含的。

Meta AI终于进入欧盟,但存在限制
image4.jpg
Meta公司宣布在其与欧洲隐私机构持续存在监管问题的情况下,在欧盟推出其人工智能驱动的虚拟助手Meta AI。这款工具自2023年以来在美国可用,将被推广到Meta的各个社交平台,包括英国的WhatsApp,但由于欧盟严格的隐私法规,其功能将受到更多限制。Meta AI能够聊天、回答问题和生成图像,它没有使用欧盟本地用户的数据进行训练,因此不会通知用户或寻求他们的同意。此次发布代表着Meta在将更多人工智能技术引入欧洲方面迈出的第一步,尽管该公司批评了欧洲的人工智能法规。

image5.jpg
Roblox的新AI模型可以生成3D物体
Roblox的Cube 3D模型是开源的,旨在通过文本提示生成3D模型来提高3D创作效率,最终将支持图像和视频等多模态输入。

艾伦人工智能研究所(AI2)发布OLMo 32B:一个完全开放的模型,在多技能基准测试套件中击败GPT 3.5和GPT-4o mini
AI艾伦研究所发布的OLMo 2 32B是一个完全开放的大型语言模型,其性能超过GPT-3.5 Turbo和GPT-4 mini

英伟达推出面向开发者和企业的开放式推理AI模型系列,用于构建自主智能平台
NVIDIA的Llama Nemotron模型,增强了推理和决策能力

Stability AI的新AI模型可将照片转换为3D场景
Stability AI的Stable Virtual Camera模型允许用户通过生成新的视角和动态摄像机路径,从二维图像创建沉浸式3D视频,尽管它可能难以处理复杂的场景和某些纹理。

Google为Gemini带来“画布”功能,以及音频概述
谷歌在其Gemini聊天机器人中引入了一项新的画布功能,允许用户协同创建和改进写作和编码项目,同时还提供了一个音频概述功能,可以生成播客风格的文档音频摘要。

Canopy Labs发布Orpheus,一款许可宽松的、用于令人信服的文本转语音的LLM
Canopy Labs发布了Orpheus,一个用于文本转语音生成的系列大型语言模型,能够传达情感并执行零样本语音克隆,其中包含一个三亿参数的模型,可在开源许可下使用。

xAI推出图像生成API
xAI的新图像生成API,采用“grok-2-image-1212”模型,提供具有竞争力的价格和有限的定制选项,该公司旨在以此扩展其收入来源和投资者的兴趣。

image6.jpg
1X公司将在2025年在“数百”户家庭中测试人形机器人
1X计划在2025年在其家庭中测试其人形机器人Neo Gamma,使用远程操作员来克服其当前的局限性,同时解决隐私问题并收集数据以提高其AI能力。

扎克伯格表示Meta的Llama模型下载量已达10亿
尽管面临法律和竞争挑战,Meta的Llama模型下载量已达10亿次,并且该公司计划发布新模型,并在AI开发方面进行大量投资。

马斯克的AI公司xAI收购了一家生成式AI视频初创公司
xAI收购Hotshot暗示其计划开发具有竞争力的视频生成模型,并可能将其集成到其Grok聊天机器人平台中。

据报道,Perplexity正在洽谈最多10亿美元的融资,估值达180亿美元
据报道,人工智能搜索初创公司Perplexity正在进行早期融资谈判,筹集10亿美元,使其估值翻番至180亿美元,这反映出日益激烈的竞争以及该公司向企业解决方案和“自主代理”浏览器等新领域的扩张。

苹果调整人工智能高管职位以期扭转Siri颓势
苹果公司正在调整其人工智能领导层,任命Vision Pro的创造者迈克·罗克韦尔领导Siri的开发,旨在解决开发延误并改进其人工智能技术,该技术一直落后于竞争对手。

OpenAI的o1-pro是该公司迄今为止最昂贵的AI模型
OpenAI的o1-pro模型尽管成本高昂且计算能力增强,但其相较于标准o1模型的性能提升,尤其是在解决复杂问题方面的提升,却褒贬不一。

BotQ:美国公司建成人形机器人造机器人工厂,年产量达12000台
BotQ的工厂将利用垂直整合和先进的软件系统,例如MES、PLM和ERP,以确保人形机器人的高质量、高效生产和管理。

image7.png
衡量AI完成长任务的能力
AI的性能,以其能够完成的任务长度衡量,呈指数级增长,大约每7个月翻一番,这表明在几年内,AI就能自主处理目前需要数周人工才能完成的任务。

小黑侠 发表于 2025-3-26 14:59:36
柏舟不寐 发表于 2025-3-26 07:49
一个虫部落,一个鼠部落,你这是要谋反

古有恶虎食马,今有巨鼠吞虫!
柏舟不寐 发表于 2025-3-26 07:49:28
一个虫部落,一个鼠部落,你这是要谋反
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场RSS

Build with for "make search easier" Copyright © 2013-2025. Powered by Discuz! GMT+8, 2025-5-2 03:31

快速回复 返回顶部 返回列表