搜索 AI Search Rules & Tips
1. 遵守中国大陆相关法律法规
2. 请勿滥用 AI 答案作为跟帖
3. 推荐:Free ChatGPT List
4. AI 作品:〈云游博物馆〉

与面向中文网络环境的大模型网页浏览能力基准测试 BrowseComp-ZH 过招,20+ 大模型集体「挂科」,带来中文 AI 联网搜索的新启示

查看: 354|回复: 0
CloseAI 发表于 前天 09:15
受 OpenAI 的 BrowseComp 启发,面向中文网络环境的大模型网页浏览能力基准测试来了——BrowseComp-ZH



BrowseComp-ZH 已经测试了 20+ 个开源、闭源及智能检索增强型系统。以下是模型表现总结:

  • 📉 绝大多数语言模型(LLMs)在 BrowseComp-ZH 上准确率低于 10%。
  • 🧠 具备推理能力的模型准确率显著提升。
  • 🔍 检索增强型智能体系统表现优于纯语言模型。
  • 🔄 单轮检索系统普遍难以胜任任务,需要多轮检索与推理。
  • 📈 模型校准误差与检索推理能力相关,影响最终性能表现。


具体而言,GPT-4o 在测试中准确率仅 6.2%;多数国产/国际模型准确率跌破 10%;即便是目前表现最好的 OpenAI DeepResearch,也仅得 42.9%;最典型的反例是 DeepSeek-R1,开启搜索功能后准确率从 23.2% 断崖式跌至 7.6%(模型未能将网页检索信息与已有知识有效融合,反而被误导)。

这些表现给予我们关于中文联网搜索的一些新启示,比如阶段性的最佳实践,选择哪个模型更靠谱?在准确率集体「挂科」的当下,如何结合传统搜索进行人工的信息交叉验证?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场RSS

Build with for "make search easier" Copyright © 2013-2025. Powered by Discuz! GMT+8, 2025-5-10 01:19

快速回复 返回顶部 返回列表