OpenAI推出CriticGPT：让GPT-4帮助人类训练人类创建的GPT-4 - GPT中文站: 免费ChatGPT中文版

OpenAI在强化学习领域迈出了新的一步：推出基于GPT-4的CriticGPT，专门用于审查ChatGPT代码输出中的错误。这一创新让人类能够借助GPT-4的能力来发现和改进ChatGPT在任务执行过程中的问题。

CriticGPT的作用很简单：它生成关于ChatGPT响应的批评性评论，帮助人类训练者更有效地发现代码中的错误。OpenAI的研究发现，使用CriticGPT进行审查的人类训练师效果比没有使用帮助的情况提高了60%。

这项技术的意义在于，它允许OpenAI将类似CriticGPT的模型整合到强化学习和反馈管道中，为训练师提供更明确的AI辅助。OpenAI指出，目前人们在评估高级AI系统的表现时面临挑战，而CriticGPT为实现这一目标迈出了重要的一步。

例如，在一个需要ChatGPT编写特定Python函数的任务中，CriticGPT可以指出可能需要改进的代码部分，提议替换为更有效的表达方式。

OpenAI指出，尽管CriticGPT的建议并非完全没有错误，但他们发现在与没有此类AI帮助的情况相比，有了CriticGPT后，训练师能够发现更多模型编写答案的问题。

此外，当人们与CriticGPT合作时，这种AI模型可以增强他们的技能，使他们能够得出比单独人类训练师更全面的批评结论，并且减少由AI模型独立工作时可能产生的幻觉错误。

OpenAI的实验显示，超过60%的训练师更喜欢与CriticGPT合作得出的批评结论，而不是单独由人类训练师提供的批评意见。

OpenAI提到了开发CriticGPT时遇到的四大局限性。首先，他们使用ChatGPT的简短答案来训练CriticGPT，但未来需要探索能够帮助训练师理解更复杂和冗长任务的方法。

其次，模型仍然可能产生幻觉，这有时会导致训练师误判错误。第三，现实世界中的错误有时分散在答案的多个部分，目前的工作重点是让模型指出单个位置的错误，未来需要解决分散在不同位置的错误。

第四，OpenAI指出，CriticGPT的帮助有限：对于极其复杂的任务或响应，即使有模型辅助，专家也可能无法准确评估。

最后，OpenAI认为，为了协调日益复杂的AI系统，人们需要更优秀的工具。他们希望通过将RLHF应用于GPT-4来生成更优质的数据，以帮助改进GPT-4的性能。OpenAI计划进一步推进这项工作并将其付诸实践。

在社交媒体上，OpenAI发布了关于新模型CriticGPT的消息后，受到了广泛的关注和赞赏，反映了自我改进的步伐已经开始。

还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词，点评OpenAI所说的用GPT-4找GPT-4的错误：“我用宝石摧毁了宝石。”