最近,一款名为ChatGPT的人工智能聊天系统突然在网络上引起了轰动。易观智慧院高级分析师陈晨评价说:“从目前普遍的对话体验来看,ChatGPT的最大亮点在于其卓越的意图识别和语言理解能力,这让人们意识到人工智能的交互能力已经取得了飞跃式的进展。”
ChatGPT能够有问必答,对答如流,这种神奇的人机互动体验激发了用户不断向其提问的兴趣,并带来了惊人的用户量。这款系统由美国人工智能研究公司OpenAI在两个月前推出,截至今年1月,月活跃用户已达到1亿,用户增长速度前所未有。
ChatGPT的成功背后,预训练模型技术起到了关键作用。面对ChatGPT的流行,国内科技机构和企业也纷纷行动起来。据最新消息,中国版ChatGPT将于下个月与公众见面。
参数规模从几百万狂飙至几千亿
阿里研究院未来技术中心负责人苏中解释:“预训练技术是当前人工智能研究的重要突破口。传统研究方法中,标注成本一直是阻碍人工智能算法扩展到更大数据集的障碍,而预训练技术无需数据标注,就可以训练出大规模深度学习模型。”
科技日报记者了解到,由于不需要数据标注,预训练模型通常可以使用更大的数据集,从而可以构建更大规模的模型。这催生了预训练大模型的发展。
IDEA研究院认知计算与自然语言研究中心讲席科学家张家兴介绍说:“与以往的人工神经网络相比,预训练大模型的规模更大,深度学习网络的层数更多,连接更多,参数也更多。2012年前后的深度学习网络只有几百万参数;2018年前后的主流预训练模型达到了1亿参数;而如今,大规模预训练模型的参数量已经达到几千亿,短短几年时间增加了数千倍。”
量变引起质变。苏中分析说,在各种技术评测中,预训练模型的算法性能展示了一个规律:数据规模越大,预训练模型的参数越多,算法输出的精度也越高。
除了规模大以外,张家兴指出,目前的预训练大模型由于采用了新的结构,非常适合并行训练。同时,在训练方式上,预训练任务类似于“解题”,例如去掉一句话中的某个词或前半句,让预训练模型利用海量数据恢复句子,这样模型的“解题”能力会越来越强。而在大语言模型的基础上引入指令学习,比模型微调带来的收益要高得多。此外,人类反馈可以帮助模型更好地理解人类意图和信息,使人机对话更加流畅。
旷视研究院基础科研负责人张祥雨表示:“ChatGPT在底层数据、核心技术、用户体验等方面都是里程碑式的人工智能产品。ChatGPT的核心技术是人工智能语言大模型,其关键在于如何让模型具备逻辑推理能力,以及如何学习全互联网的知识。ChatGPT在这些方面都取得了重大突破,因此在决策和知识处理上取得了显著进展。”
国内多家科技机构已布局相关领域
据外媒报道,多家国外科技巨头正在大力投资预训练模型和人工智能生成内容(AIGC)领域。记者了解到,国内也有不少科技机构和企业在这一领域布局。
张家兴告诉记者,IDEA研究院认知计算与自然语言研究中心在这一方向上布局已久,该中心拥有国内最大的开源模型体系——封神榜,98个已开源的模型正在全力支持中国AIGC的发展,探索研发适用于各领域的个性化可定制模型,支持所有自然语言处理(NLP)任务。
张家兴说:“很高兴能在深度学习高速发展的第十年节点上,看到AIGC和ChatGPT的出现。今天,所有这些自然语言处理任务正在被统一到ChatGPT模式下,我们也在整合之前的模型和技术,推出我们的类ChatGPT模型。”
百度方面透露,百度已投入开发类似ChatGPT的相关技术,该项目命名为文心一言(ERNIE Bot),预计在3月份完成内测并面向公众开放。目前,文心一言正在为上线做最后的准备。
科大讯飞在2月8日晚间的投资者互动平台回应称:“ChatGPT主要涉及自然语言处理相关技术,属于认知智能领域的应用之一。科大讯飞在该方向的技术和应用方面具备长期深厚的积累。公司已面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,并于去年12月启动生成式预训练大模型任务攻关,人工智能学习机将成为该项技术率先落地的产品,今年5月将进行产品级发布。”
此外,360公司在2月7日的投资者互动平台上表示,公司也计划尽快推出类ChatGPT技术的原型产品。360公司称:“AIGC技术除了在搜索引擎中的应用,还可以辅助提升数字安全能力。”