近年来,大模型在许多领域展现出了强大的能力,但它们在中文互联网的复杂检索任务中表现却不尽如人意。港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集BrowseComp-ZH,让20多个中外主流大模型集体“挂科”。该测试集包含289道高难度中文多跳检索题目,覆盖影视、艺术、医学、地理、历史、科技等11大领域,确保百度/Bing/Google三大搜索引擎首屏无法直接命中答案,多个主流大模型在检索模式下也无法直接答对。在BrowseComp-ZH的测试下,多款国内外主流大模型集体“翻车”,尽管它们在对话理解、生成表达方面已展现强大实力,但在面对中文互联网的复杂检索任务时,准确率普遍低得惊人。 DeepResearch在所有模型中表现最好,但也仅得42.9%,远未“及格”。研究者指出,模型需要具备多跳推理与信息整合的能力,才能在中文互联网中真正找到答案。同时,他们还揭示了中文网页任务的“模型死角”,发现纯靠参数记忆的模型准确率往往低于10%,而有推理能力的模型表现更好。此外,具备多轮检索能力的AI搜索产品也全面胜出。 BrowseComp-ZH的全部数据已开源发布,研究者希望此基准测试能成为推动LLM在中文信息环境落地的试金石,助力构建真正“会用中文上网”的智能体。他们还计划扩充样本规模,拓展问答形式,并深入分析模型推理路径与失败案例。
话题追踪
本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/54715/