AI 上周热点#011

shubuluoage · 发表于 2025-3-25 21:24:24

更多咨询在微信公众号“鼠部落”首发，本周刊每周更新，欢迎您关注、点赞、转发！

AI 总结
OpenAI发布了更人性化的语音模型，百度发布了Ernie 4.5和Ernie X1，Anthropic为Claude增加了网络搜索功能，Meta AI登陆欧盟但功能受限。其他新闻包括：Roblox、Allen AI、英伟达、Stability AI和谷歌发布了新的AI模型和工具；xAI发布了图像生成API；1X公司将在2025年测试其人形机器人；Meta的Llama模型下载量达10亿；xAI收购了一家生成式AI视频初创公司；Perplexity寻求10亿美元融资；苹果重组AI领导层；BotQ公司将建机器人工厂；多项AI研究取得进展等。

以下全文
OpenAI发布新音频模型，让AI代理的声音比以往任何时候都更人性化

OpenAI推出了一套新的音频模型，旨在使AI语音代理听起来更像人声并更具响应性。此次发布包括两个新的语音转文本模型，GPT-4o-transcribe和GPT-4o-mini-transcribe，它们在多种语言的转录准确性方面优于之前的模型，即使在具有挑战性的场景中，例如理解不同的口音和过滤背景噪音。新的GPT-4o-mini-tts文本转语音模型允许开发者控制AI语音的音调和表达方式，OpenAI称之为“可控性”。此外，更新后的Agents SDK简化了文本代理到语音代理的转换。

百度发布了两个新版本的AI模型文心一言

百度发布了其人工智能模型ERNIE的两个新版本：ERNIE 4.5和ERNIE X1。该公司声称，ERNIE X1的性能与DeepSeek R1相当，但成本只有后者的一半，而ERNIE 4.5由于其“高情商”而得到了增强，能够理解表情包和讽刺。这两个模型都具有多模态能力，这意味着它们可以处理视频、图像、音频和文本。尽管是OpenAI的ChatGPT的早期竞争对手，但百度在实现广泛应用方面面临挑战。该公司计划在今年晚些时候推出ERNIE 5，并承诺进一步增强多模态功能。

Anthropic为其Claude聊天机器人添加了网络搜索功能

Anthropic的AI聊天机器人Claude增加了网络搜索功能，使其能够搜索互联网信息来完善其回复。此功能目前仅限美国付费用户使用，计划将来扩展到免费用户和其他国家。网络搜索功能与最新模型Claude 3.7 Sonnet配合使用，并提供直接引用以方便事实核查。然而，该功能在处理与时事相关的提问时触发效果不稳定。此更新使Claude与其他AI聊天机器人（如OpenAI的ChatGPT、谷歌的Gemini和Mistral的Le Chat）看齐，尽管之前曾声称Claude的设计是自包含的。

Meta AI终于进入欧盟，但存在限制

Meta公司宣布在其与欧洲隐私机构持续存在监管问题的情况下，在欧盟推出其人工智能驱动的虚拟助手Meta AI。这款工具自2023年以来在美国可用，将被推广到Meta的各个社交平台，包括英国的WhatsApp，但由于欧盟严格的隐私法规，其功能将受到更多限制。Meta AI能够聊天、回答问题和生成图像，它没有使用欧盟本地用户的数据进行训练，因此不会通知用户或寻求他们的同意。此次发布代表着Meta在将更多人工智能技术引入欧洲方面迈出的第一步，尽管该公司批评了欧洲的人工智能法规。

Roblox的新AI模型可以生成3D物体
Roblox的Cube 3D模型是开源的，旨在通过文本提示生成3D模型来提高3D创作效率，最终将支持图像和视频等多模态输入。

艾伦人工智能研究所（AI2）发布OLMo 32B：一个完全开放的模型，在多技能基准测试套件中击败GPT 3.5和GPT-4o mini
AI艾伦研究所发布的OLMo 2 32B是一个完全开放的大型语言模型，其性能超过GPT-3.5 Turbo和GPT-4 mini

英伟达推出面向开发者和企业的开放式推理AI模型系列，用于构建自主智能平台
NVIDIA的Llama Nemotron模型，增强了推理和决策能力

Stability AI的新AI模型可将照片转换为3D场景
Stability AI的Stable Virtual Camera模型允许用户通过生成新的视角和动态摄像机路径，从二维图像创建沉浸式3D视频，尽管它可能难以处理复杂的场景和某些纹理。

Google为Gemini带来“画布”功能，以及音频概述
谷歌在其Gemini聊天机器人中引入了一项新的画布功能，允许用户协同创建和改进写作和编码项目，同时还提供了一个音频概述功能，可以生成播客风格的文档音频摘要。

Canopy Labs发布Orpheus，一款许可宽松的、用于令人信服的文本转语音的LLM
Canopy Labs发布了Orpheus，一个用于文本转语音生成的系列大型语言模型，能够传达情感并执行零样本语音克隆，其中包含一个三亿参数的模型，可在开源许可下使用。

xAI推出图像生成API
xAI的新图像生成API，采用“grok-2-image-1212”模型，提供具有竞争力的价格和有限的定制选项，该公司旨在以此扩展其收入来源和投资者的兴趣。

1X公司将在2025年在“数百”户家庭中测试人形机器人
1X计划在2025年在其家庭中测试其人形机器人Neo Gamma，使用远程操作员来克服其当前的局限性，同时解决隐私问题并收集数据以提高其AI能力。

扎克伯格表示Meta的Llama模型下载量已达10亿
尽管面临法律和竞争挑战，Meta的Llama模型下载量已达10亿次，并且该公司计划发布新模型，并在AI开发方面进行大量投资。

马斯克的AI公司xAI收购了一家生成式AI视频初创公司
xAI收购Hotshot暗示其计划开发具有竞争力的视频生成模型，并可能将其集成到其Grok聊天机器人平台中。

据报道，Perplexity正在洽谈最多10亿美元的融资，估值达180亿美元
据报道，人工智能搜索初创公司Perplexity正在进行早期融资谈判，筹集10亿美元，使其估值翻番至180亿美元，这反映出日益激烈的竞争以及该公司向企业解决方案和“自主代理”浏览器等新领域的扩张。

苹果调整人工智能高管职位以期扭转Siri颓势
苹果公司正在调整其人工智能领导层，任命Vision Pro的创造者迈克·罗克韦尔领导Siri的开发，旨在解决开发延误并改进其人工智能技术，该技术一直落后于竞争对手。

OpenAI的o1-pro是该公司迄今为止最昂贵的AI模型
OpenAI的o1-pro模型尽管成本高昂且计算能力增强，但其相较于标准o1模型的性能提升，尤其是在解决复杂问题方面的提升，却褒贬不一。

BotQ：美国公司建成人形机器人造机器人工厂，年产量达12000台
BotQ的工厂将利用垂直整合和先进的软件系统，例如MES、PLM和ERP，以确保人形机器人的高质量、高效生产和管理。

衡量AI完成长任务的能力
AI的性能，以其能够完成的任务长度衡量，呈指数级增长，大约每7个月翻一番，这表明在几年内，AI就能自主处理目前需要数周人工才能完成的任务。

小黑侠 · 发表于 2025-3-26 14:59:36

柏舟不寐发表于 2025-3-26 07:49
一个虫部落，一个鼠部落，你这是要谋反

古有恶虎食马，今有巨鼠吞虫！

柏舟不寐 · 发表于 2025-3-26 07:49:28

一个虫部落，一个鼠部落，你这是要谋反