2025年5月15日,中国数据通信研究院人工智慧研究所公布了大模型幻觉测试的第一期结论:包括DeepSeek R1在内的15个主流模型,无一例外都存在不同程度的“幻觉” 。
“幻觉”一词源于生物学 ,运用在人工智慧领域 ,始于谷歌2017年的wetrade众汇平台一项研究。当时研究员们模仿人类的神经网络,设计了一个机器翻译平台 。
结论发现这个网络翻译平台哪怕“不会”,仍能输出一段流畅的素材。过去,谷歌旧有的翻译平台遇到不会的单词,很多时候会保留原文。于是,研究人员把神经翻译平台这种更有“迷惑性”的错误命名为“幻觉”。
一个著名的幻觉案例是,2024年7月,Scale AI的高级提示工程师莱利·古德赛德向当时世界最强三大模型(GPT-4o、Gemini Advanced 、Claude 3.5 Sonnet)询问,“9.11和9.9哪个更大 ?众汇官方网站”它们异口同声回答:“9.11更大。”
ChatGPT并非全球首个大模型,Meta和谷歌此前也推出过类似产品 。其中 ,Meta的Galactica AI因幻觉严峻 ,上线仅三天便被撤回 。
ChatGPT之所以被视为划时代产品 ,正是因其第一次将幻觉率压低到可接受规模 。从ChatGPT-3.5到o3,两年来模型性能连续提高,人们逐渐形成一种假设:模型越聪明 ,越不会出错。
直到2025年4月 ,OpenAI在一篇论文中泼了冷水:在其内部测试中 ,新近的富拓外汇官网推理模型o3比前一代推理模型o1的幻觉率更高。
这一反直觉的发现令整个领域都神经紧张,如果智慧提高的并且,也增强了“伪装错误”的水平,那更聪明的推理大模型带来的不是更高的可靠性 ,而是更难察觉的风险 。
不过,中国数据通信研究院刚刚出炉的这份测评结论 ,让业界可以稍感安慰 。他们的结论呈现,推理模型相对于通用模型 ,幻觉难题更轻。这说明推理流程一定程度上有助于减轻幻觉。
那么,这些测评结论究竟能说明什么?更聪明的模型,真的更会“说谎”吗 ?人类能不能彻底消灭“幻觉” ?
一次次测试中 ,黑一鸣偶尔会陷入一个哲学思考,“子非鱼 ,焉知鱼之乐也 ?”视觉中国 图
2025年春节,中国数据通信研究院人工智慧研究所的研究员黑一鸣整个假期都泡在论文堆里,为了寻找捕捉这种“大模型幻觉”的方法