OpenAI的GPT-4o在道德推理方面超越人类专家

近期研究显示,OpenAI的最新聊天机器人GPT-4o在道德方面的解释和建议能力优于公认的道德专家。

根据The Decoder的报道,来自美国北卡罗莱纳大学教堂山分校和艾伦AI研究所的研究人员进行了两项研究,比较了GPT模型与人类的道德推理能力,探讨了大型语言模型是否可以被视为“道德专家”。

IT之家总结了研究的关键内容如下:

研究一
研究对象为501名美国成年人,比较了GPT-3.5-turbo模型和其他人类参与者在道德解释方面的表现。结果显示,参与者认为GPT的解释更符合道德、更可靠、更周到,AI的评估比其他人类参与者更为可靠。尽管差异不大,关键发现是AI能够匹配甚至超越人类在道德推理上的水平。

研究二
研究将OpenAI最新的GPT-4o模型生成的建议与《纽约时报》的著名伦理学家Kwame Anthony Appiah在“伦理学家”专栏中的建议进行比较,共有900名参与者对50个伦理困境的建议进行了评分。结果显示,GPT-4o在几乎所有方面都优于人类专家,被认为在道德正确性、可信度、周到性和准确性上更胜一筹。唯一的例外是在感知到的微小差异方面,AI与人类专家之间没有显著差异。

研究人员认为,这些结果表明AI可以通过“比较道德图灵测试”(cMTT)来评估,GPT-4o在提供建议时使用的道德和积极语言比人类专家更为丰富。这些发现部分解释了为何AI的建议能够获得更高的评分,尽管这并非唯一因素。

研究需注意的一点是,此研究仅限于美国参与者,未来需要进一步研究人们在全球范围内如何看待AI生成的道德推理,特别是考虑到文化差异的影响。