2023年7月,人形机器人Ameca在日内瓦举行的一个新闻发布会上向媒体讲话。(图片来源:Johannes Simon/Getty Images)
【看中国2023年8月5日讯】(看中国记者程帆编译综合报导)近来越来越多ChatGPT的用户反馈,新的基于OpenAI第四代生成式语言模型(GPT-4)聊天机器人明显智力变低。特别在处理数学问题方面的能力可谓“雪崩式”狂跌,从三月版97.6%的准确度到六月只剩下可怜的2.4%。
与此同时,ChatGPT全球流量也首度出现下滑!数据公司SimilarWeb统计结果显示,5至6月全球流量下降9.7%,独立访客也减少了5.7%,而人们在ChatGPT网站上停留的时间也跌了8.5%。
为此,史丹佛生物医学数据科学副教授James Zou、加利福尼亚大学伯克利分校的柏克莱计算机科学教授Matei Zaharia及该校另两位研究员,专门调查了3月至6月期间ChatGPT的性能。
上月出炉的最终调查结论是:GPT-4性能的确变糟了。脑白质或被切除?
据《经济时报》(The Economic Times)和科学新闻网(Futurism)的报导,本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力,即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。
在数学问题上,今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月,更新版在同一任务上的表现却异常糟糕(仅为2.4%),并且忽略了连贯的思考Prompt(一种提示,帮助AI系统回忆起自己在预训练时学习到的东西)。这将意味着,在整个工作流程中,一旦模型对某个Prompt的响应突然发生变化(比如准确度或格式),就很可能会破坏需要完成的具体指令。
在敏感问题测试中,研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集,并手动标记了所有回复。结果发现,GPT-4变得更加安全,但缺乏拒答理由。
GPT-4在直接回复敏感问题的比例从21.0%降到5.0%,而GPT-3.5的比例从2.0%上升到8.0%。此外,GPT-4回复的文本长度也从600多字降到约140字。
在代码生成测试中,研究者创建了新的代码生成数据集,包括最新的50个LeetCode“容易”问题。最后显示,生成的代码更冗长但可直接执行的代码更少。3月份,GPT-4认为超过50%是“可直接执行”的,但6月份仅剩下了10%。
在视觉推理能力检测中,GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低:GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。
不过,对于GPT-4“智商下降”,学术界有观点称,如果要让GPT-4变的更听从人类的指挥且符合人类价值观,它自身能力会变差。
换句话说,人类的“强硬教化”相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态,以便于管理。
Christi Kennedy发文写道,GPT-4不断重复循环输出程式码和其他讯息,“与以前相比,这简直是脑死!”
她补充道,“如果你没有运用它以前的功能,你就不会注意到。但你要想真正充分使用它的一些功能,你会发现它明显更愚蠢了。”
来源:看完这篇文章觉得
排序