菲尔兹奖得主Timothy Gowers对GPT-4o进行了测试,发现其在简单的「狼-山羊-卷心菜」过河问题上无法给出正确答案。Gowers提出了「废话比率」这一新基准,用于衡量LLM答案与正确答案之间的差距。测试显示,GPT-4o在简单问题上的废话比率高达5倍。此外,其他大型语言模型如Claude 3.5也表现不佳,无法解决类似逻辑难题。这揭示了当前LLM在逻辑推理和常识理解方面的局限性。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。
菲尔兹奖得主Timothy Gowers对GPT-4o进行了测试,发现其在简单的「狼-山羊-卷心菜」过河问题上无法给出正确答案。Gowers提出了「废话比率」这一新基准,用于衡量LLM答案与正确答案之间的差距。测试显示,GPT-4o在简单问题上的废话比率高达5倍。此外,其他大型语言模型如Claude 3.5也表现不佳,无法解决类似逻辑难题。这揭示了当前LLM在逻辑推理和常识理解方面的局限性。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。