AI修复AI:OpenAI推出CriticGPT

在当前人工智能快速发展的时代,我们面临的一个主要挑战是人工智能偶尔会出现错误。更为关键的是,许多人工智能工具的黑箱特性意味着捕捉这些错误并理解其发生的原因可能非常困难。

最近,OpenAI在一篇博客文章中介绍了他们的最新研究成果,基于一项关于人工智能的论文。该公司推出了CriticGPT,这是基于GPT-4架构的模型,专门用于检测和突显ChatGPT生成响应中的不准确性,特别是在编程任务中。

研究人员发现,当人类审核员使用CriticGPT来评估ChatGPT生成的代码时,他们在60%的情况下表现优于没有CriticGPT帮助的情况。这项工作不仅仅关乎错误检测,更重要的是它可能重新定义了我们如何进行人工智能的训练、评估和部署。

深入挖掘细节,CriticGPT经过使用人类反馈强化学习(RLHF)进行了训练。这种方法类似于ChatGPT本身的训练方式,即通过训练师手动插入错误来对CriticGPT进行训练。在这个过程中,OpenAI发现,在自然发生的63%的bug中,训练师更倾向于使用CriticGPT而不是ChatGPT。这是因为CriticGPT生成的代码往往不那么易于产生小错误,并且避免了幻觉的出现。

这些研究成果标志着在人工智能领域中一个重要的进展,为提高模型可靠性和应用程序安全性提供了新的思路和工具。

研究发现,与评估代码质量或有效性的其他方面相比,识别特定预定义的bug更直观。论文讨论了两种评估数据类型:人为插入的错误和人工检测到的错误。这种双重方法有助于更全面地理解CriticGPT在不同情景下的表现,包括人为插入的错误和自然发生的错误。然而,分析包含参考错误描述的人为插入错误数据时,显示出显著的一致性提高。

这种一致的模式表明,清晰地识别错误为评估提供了更具体的背景,使开发者能够做出更一致的判断。然而,这也带来了在对人工智能生成的观点进行一致评估时的挑战,特别是在处理代码质量的其他方面时。

此外,OpenAI指出,CriticGPT并非万能解决方案。他们观察到,人类开发者通常会保留或修改人工智能生成的意见,这表明人类专业知识与人工智能辅助之间存在着协同作用。

尽管仍有进步空间,但OpenAI的CriticGPT无疑标志着一个重大进展,它正在显著降低像ChatGPT这类模型出错的