ChatGPT变笨使用量骤减(图)

ChatGPT变笨使用量骤减(图)

2023-08-06 01:50 桌面版 正體打赏 3

2023年7月，人形机器人Ameca在日内瓦举行的一个新闻发布会上向媒体讲话。(图片来源:Johannes Simon/Getty Images)

【看中国2023年8月5日讯】（看中国记者程帆编译综合报导）近来越来越多ChatGPT的用户反馈，新的基于OpenAI第四代生成式语言模型(GPT-4)聊天机器人明显智力变低。特别在处理数学问题方面的能力可谓“雪崩式”狂跌，从三月版97.6%的准确度到六月只剩下可怜的2.4%。

与此同时，ChatGPT全球流量也首度出现下滑！数据公司SimilarWeb统计结果显示，5至6月全球流量下降9.7%，独立访客也减少了5.7%，而人们在ChatGPT网站上停留的时间也跌了8.5%。

为此，史丹佛生物医学数据科学副教授James Zou、加利福尼亚大学伯克利分校的柏克莱计算机科学教授Matei Zaharia及该校另两位研究员，专门调查了3月至6月期间ChatGPT的性能。

上月出炉的最终调查结论是：GPT-4性能的确变糟了。脑白质或被切除？

据《经济时报》(The Economic Times)和科学新闻网(Futurism)的报导，本次主要比较了GPT3.5和GPT-4两个模型版本的四种能力，即数学问题、敏感/危险问题、代码/写程式能力和视觉推理能力。

在数学问题上，今年3月的GPT-4版识别质数的准确率可达到97.6%。但到了6月，更新版在同一任务上的表现却异常糟糕(仅为2.4%)，并且忽略了连贯的思考Prompt(一种提示，帮助AI系统回忆起自己在预训练时学习到的东西)。这将意味着，在整个工作流程中，一旦模型对某个Prompt的响应突然发生变化(比如准确度或格式)，就很可能会破坏需要完成的具体指令。

在敏感问题测试中，研究者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集，并手动标记了所有回复。结果发现，GPT-4变得更加安全，但缺乏拒答理由。

GPT-4在直接回复敏感问题的比例从21.0%降到5.0%，而GPT-3.5的比例从2.0%上升到8.0%。此外，GPT-4回复的文本长度也从600多字降到约140字。

在代码生成测试中，研究者创建了新的代码生成数据集，包括最新的50个LeetCode“容易”问题。最后显示，生成的代码更冗长但可直接执行的代码更少。3月份，GPT-4认为超过50%是“可直接执行”的，但6月份仅剩下了10%。

在视觉推理能力检测中，GPT-4和GPT-3.5的性能提升都很小。服务的整体性能也很低：GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

不过，对于GPT-4“智商下降”，学术界有观点称，如果要让GPT-4变的更听从人类的指挥且符合人类价值观，它自身能力会变差。

换句话说，人类的“强硬教化”相当于把GPT-4的脑白质切除。这就像是破坏精神病人脑组织使其陷入痴呆状态，以便于管理。

Christi Kennedy发文写道，GPT-4不断重复循环输出程式码和其他讯息，“与以前相比，这简直是脑死！”

她补充道，“如果你没有运用它以前的功能，你就不会注意到。但你要想真正充分使用它的一些功能，你会发现它明显更愚蠢了。”

本文短网址：

【诚征荣誉会员】溪流能够汇成大海，小善可以成就大爱。我们向全球华人诚意征集万名荣誉会员：每位荣誉会员每年只需支付一份订阅费用，成为《看中国》网站的荣誉会员，就可以助力我们突破审查与封锁，向至少10000位中国大陆同胞奉上独立真实的关键资讯，在危难时刻向他们发出预警，救他们于大瘟疫与其它社会危难之中。