OpenAI推出CriticGPT:让GPT-4帮助人类训练人类创建的GPT-4

OpenAI在强化学习领域迈出了新的一步:推出基于GPT-4的CriticGPT,专门用于审查ChatGPT代码输出中的错误。这一创新让人类能够借助GPT-4的能力来发现和改进ChatGPT在任务执行过程中的问题。

CriticGPT的作用很简单:它生成关于ChatGPT响应的批评性评论,帮助人类训练者更有效地发现代码中的错误。OpenAI的研究发现,使用CriticGPT进行审查的人类训练师效果比没有使用帮助的情况提高了60%。

这项技术的意义在于,它允许OpenAI将类似CriticGPT的模型整合到强化学习和反馈管道中,为训练师提供更明确的AI辅助。OpenAI指出,目前人们在评估高级AI系统的表现时面临挑战,而CriticGPT为实现这一目标迈出了重要的一步。

例如,在一个需要ChatGPT编写特定Python函数的任务中,CriticGPT可以指出可能需要改进的代码部分,提议替换为更有效的表达方式。

OpenAI指出,尽管CriticGPT的建议并非完全没有错误,但他们发现在与没有此类AI帮助的情况相比,有了CriticGPT后,训练师能够发现更多模型编写答案的问题。

此外,当人们与CriticGPT合作时,这种AI模型可以增强他们的技能,使他们能够得出比单独人类训练师更全面的批评结论,并且减少由AI模型独立工作时可能产生的幻觉错误。

OpenAI的实验显示,超过60%的训练师更喜欢与CriticGPT合作得出的批评结论,而不是单独由人类训练师提供的批评意见。

OpenAI提到了开发CriticGPT时遇到的四大局限性。首先,他们使用ChatGPT的简短答案来训练CriticGPT,但未来需要探索能够帮助训练师理解更复杂和冗长任务的方法。

其次,模型仍然可能产生幻觉,这有时会导致训练师误判错误。第三,现实世界中的错误有时分散在答案的多个部分,目前的工作重点是让模型指出单个位置的错误,未来需要解决分散在不同位置的错误。

第四,OpenAI指出,CriticGPT的帮助有限:对于极其复杂的任务或响应,即使有模型辅助,专家也可能无法准确评估。

最后,OpenAI认为,为了协调日益复杂的AI系统,人们需要更优秀的工具。他们希望通过将RLHF应用于GPT-4来生成更优质的数据,以帮助改进GPT-4的性能。OpenAI计划进一步推进这项工作并将其付诸实践。

在社交媒体上,OpenAI发布了关于新模型CriticGPT的消息后,受到了广泛的关注和赞赏,反映了自我改进的步伐已经开始。

还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4GPT-4的错误:“我用宝石摧毁了宝石。”