与面向中文网络环境的大模型网页浏览能力基准测试 BrowseComp-ZH 过招，20+ 大模型集体「挂科」，带来中文 AI 联网搜索的新启示

CloseAI · 发表于前天 09:15

受 OpenAI 的 BrowseComp 启发，面向中文网络环境的大模型网页浏览能力基准测试来了——BrowseComp-ZH。

BrowseComp-ZH 已经测试了 20+ 个开源、闭源及智能检索增强型系统。以下是模型表现总结：

📉 绝大多数语言模型（LLMs）在 BrowseComp-ZH 上准确率低于 10%。
🧠 具备推理能力的模型准确率显著提升。
🔍 检索增强型智能体系统表现优于纯语言模型。
🔄 单轮检索系统普遍难以胜任任务，需要多轮检索与推理。
📈 模型校准误差与检索推理能力相关，影响最终性能表现。

具体而言，GPT-4o 在测试中准确率仅 6.2%；多数国产/国际模型准确率跌破 10%；即便是目前表现最好的 OpenAI DeepResearch，也仅得 42.9%；最典型的反例是 DeepSeek-R1，开启搜索功能后准确率从 23.2% 断崖式跌至 7.6%（模型未能将网页检索信息与已有知识有效融合，反而被误导）。

这些表现给予我们关于中文联网搜索的一些新启示，比如阶段性的最佳实践，选择哪个模型更靠谱？在准确率集体「挂科」的当下，如何结合传统搜索进行人工的信息交叉验证？