搜索 AI Search Rules & Tips
1. 遵守中国大陆相关法律法规
2. 请勿滥用 AI 答案作为跟帖
3. 推荐:Free ChatGPT List
4. AI 作品:〈云游博物馆〉

BrowseComp:测试 AI 模型联网搜索难以找到的信息的能力

查看: 2204|回复: 0
虫子 发表于 2025-4-12 09:04:11
OpenAI 开源了一个全新的基准测试 BrowseComp,用于评估 AI 代理在互联网上查找难以获取信息的能力。

具体而言包括三方面:
  • 为了获得正确答案,模型必须能够推理互联网上内容的事实性。
  • 因为很难找到答案,所以在 BrowseComp 取得好成绩需要持久性和深度浏览能力。
  • 许多答案太耗时(或不可能)使用蛮力方法找到。因此,为了在合理的时间内完成,模型必须在搜索中创造性地找到正确答案。


虽然 BrowseComp 的目标不是衡量常见查询的性能,但它衡量的是找到单个目标信息的能力(不包括生成长答案或解决歧义)。

该测试包含 1255 个极具挑战性的题目,设计初衷为模拟 AI 在复杂信息网络中的「按图索骥」,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域。

对比人类训练师和 AI 模型的准确率

模型训练师无法获得问题的正确答案,并被要求在不使用 AI 助手的情况下完成任务(具体来说,不使用 ChatGPT、Claude、Perplexity、Grok 或 Gemini)。由于有些问题非常难,规则允许训练师将问题标记为无法解决,如果他们能在搜索后两个小时内解决,则继续前进。

最终,训练师解决了 29.2% 的问题,在解决的问题中,训练师的答案与 86.4% 的参考答案相匹配。

AI 模型的测试结果则要糟糕许多(GPT-4o、GPT-4.5 准确率几乎为零):

模型 准确率(%)
GPT-4o 0.6
GPT‑4o w/ browsing   1.9
GPT‑4.5 0.9
OpenAI o1 9.9
Deep research 51.5


这里摘取几个例子,各位可以直观感受下问题的复杂度:

确定 2023 年 6 月之前发布的研究出版物的标题,其中提到了文化传统、科学过程和烹饪创新。它由三个人合著:其中一位是西孟加拉邦的助理教授,另一位拥有博士学位。

我正在寻找一位作家和传记作家的笔名,他撰写了许多书籍,包括他们的自传。1980 年,他们还写了一本关于父亲的传记。这位作家爱上了一位哲学家的兄弟,他是他们家的第八个孩子。这位作家在 1940 年代离婚并再婚。

一所新学校成立于 90 年代,由一所女子和男子学校合并而成,形成了一所新的男女同校,其历史可以追溯到 19 世纪下半叶。新学校被赋予了一个拉丁名。女子学校叫什么名字?

在 1990 年至 1994 年(含)期间,在巴西裁判的足球比赛中,哪支球队有四张黄牌,每支球队两张,其中总共四张黄牌中有三张是在上半场没有出示的,还有四次换人,其中一张是在比赛的前 25 分钟内受伤。


由于 BrowseComp 刚刚推出,目前仅有 OpenAI 自家模型的成绩,期待很快能看到其它联网搜索性能优异的模型脱颖而出。

信息参考:
  • https://openai.com/index/browsecomp/
  • https://anara.com/papers/browsecomp-a-benchmark-for-browsing-agents
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

虫部落 陕ICP备14001577号-1川公网安备 51019002003015号联系我们FAQ关于虫部落免责声明虫部落生存法则社区广场RSS

Build with for "make search easier" Copyright © 2013-2025. Powered by Discuz! GMT+8, 2025-5-2 06:01

快速回复 返回顶部 返回列表