使用 GPT-4，学渣比学霸更有优势

西风发表于 2024/2/16 20:30:47

如果允许学生用 AI“作弊”，他们的成绩分布会发生怎样的变化？针对这个问题，真有几位大学教授正儿八经研究了一番，并写下了长达 62 页的研究论文。

结果发现，使用 GPT-4 后学生的“能力曲线被压缩了”，差生和优等生的差距缩小。

沃顿商学院教授分享了这项研究后，引起不少网友讨论。网友对这样的结果也感觉很意外：

和我的预期完全不符啊，还以为所有人分数都会提高。

还有网友称这是“真正的游戏规则改变者”：

AI 正在改变教育格局，在缩小差距的同时提高标准。

不过也有网友持不同观点：

擅长使用 AI 的人可能表现会非常出色，那种看起来差距缩小的情况可能只是因为有满绩点 4.0 这一上限。

AI 会是“平衡器”吗？

除了上面所说的，我们查看论文，发现研究人员还得出了这些结论：

下面一起来看实验详情。

具体来说，来自南加州大学 Gould 法学院、明尼苏达大学法学院的几位教授，以研究 AI 辅助对法律分析的影响为例。

给参与实验的 60 位来自明尼苏达大学法学院的学生提出了四项初级律师常见的任务：起诉状起草（Complaint Drafting）、合同起草（Contract Drafting）、员工手册起草（EE Handbook）和客户备忘录起草（Client Memo）。

不同的是，这些参与者随机分为两组（A 组、B 组），每组 30 人。A 组参与者需使用 GPT-4 完成起诉状起草、合同起草任务，而 B 组使用 GPT-4 完成员工手册起草和客户备忘录起草任务。

实验前，全部学生都接受了约 2 小时的培训，了解如何有效使用 GPT-4 进行法律分析。完成任务过程中，参与者需记录自己完成任务的时间。

然后，研究人员在不知道参与者身份和其他信息的情况下，匿名完成所有作品的评分。具体实验结果如下。

在 4.0 绩点机制上，使用 GPT-4 辅助后，学生在四项任务中的平均分数波动幅度为 + 0.17、+0.24、+0.07、-0.07。

可视化图表更直观：

总的来说，仅合同起草任务的表现在 95% 置信水平上展现出了统计学意义上的显著提升。

再来看使用和不使用 GPT-4 参与者，完成任务平均花费的时间：

可以直观地看到，参与者完成任务时间大大缩减：

更多数据和分析内容，感兴趣的朋友可查看论文。

值得一提的是，几位教授在论文最后，还写下了 12 页启示，针对律师、法律客户、法官以及法学院、法学院学生提出了不同的建议。

其中指出：法学院需要重新考虑学生使用 AI 的时机和方法，以及在何种情况下应限制 AI 的应用，以便更好地适应未来实践的需求。此外，针对不同人群的类似研究也不在少数。

来自哈佛商学院、沃顿商学院、MIT 斯隆管理学院等的研究人员联合波士顿咨询公司做了一项研究。

他们选取了波士顿咨询公司中的部分高知员工，让他们使用 AI 辅助完成分析、创意构思和说服技巧等 18 项任务测试。

结果发现，原本表现位于团队下半层的顾问们在 AI 辅助下成果质量提升了 43%；而平时表现在上半层的顾问仅提升了 17%。

使用 GPT-4 之前，顶尖员工与其他员工之间的平均差距为 22%；使用之后，这一差距显著缩小至 4%。

MIT 的一项研究同样表明，使用 ChatGPT 之后，高水平写作者和低水平写作者的表现差异缩减了一半。

创意写作领域亦见相似现象，伦敦大学学院、埃克塞特大学研究人员的一项实验表明，创意作家技能差距缩小，GPT-4 提供的五个创意灵感“有效地平衡了不同创造力水平作家的创造力评分”。

不过，尽管有多项研究表明使用 AI 可以缩减人们之间的技能差距，但正如论文分享者、沃顿商学院教授 Ethan Mollick 所言：

技能的造王者（King Maker）、加速器（Escalator）、平衡器（Leveler），AI 究竟将扮演哪一种角色，并不是总是很清楚。

你认为 AI 在你的身边正扮演着哪种角色？

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：西风