苹果研究人员表明人工智能甚至不能很好地解决小学数学问题

苹果研究人员现已证实生成人工智能推理中存在一些严重的逻辑错误,尤其是在数字和数学方面。事实上,人工智能似乎并不像人们想象的那么“聪明”,在解决问题时无法取得出色的结果小学数学基础题

一个新发表的论文来自六位苹果研究人员的题为“GSM-符号:理解大型语言模型中数学推理的局限性”的论文表明,高级大型语言模型 (LLM) 的数学推理可能不准确且脆弱。

研究人员所做的工作是从 GSM8K(这是一个高质量的语言多样化小学数学应用题数据集)及其标准化的 8,000 个小学水平数学问题集开始。

这是测试法学硕士的常见基准。然后,研究人员在不改变问题逻辑的情况下稍微修改了措辞,并将此测试称为“GSM-Symbolic 测试”。

第一组测试的性能下降了 0.3% 到 9.2%。第二组在一些与答案无关的问题中包含了一个陈述,显示“灾难性的表现下降”,从大约 17.5% 大幅下降到 65.7%。

对于某些人来说,这并不奇怪。我个人见过人工智能在处理一些与数字相关的简单任务时遇到困难。事实上,人工智能并不能正确解决数学问题,而是使用简单的“模式匹配”将语句转换为运算,而没有真正理解其含义。

人工智能似乎无法解决简单的数学问题,因为这些单词本质上太混乱或不遵循确切的模式。总而言之,人工智能似乎只是给人一种“推理”的假象,而只是依赖于储存数据然后进行处理。

但这对于更大的图景意味着什么呢?最近我们都太关注人工智能了,似乎有些人期待它能带来奇迹(我也对类似的想法感到内疚)。但它有严重的局限性,我不确定这些是否能够得到缓解。当然,我不是人工智能科学家,但我很好奇人工智能的发展将在哪里错开(好吧,除了数学之外!)。