1. 头部大语言模型阵营
在全球范围内,大型语言模型呈现出显著的区域化发展特征。美国和中国的发展路径各有特色。美国的大型语言模型阵营已基本确立,主要集中在几家大型科技公司及其与一些头部模型创业公司的联合体。美国的AI领域已进入高成本的军备竞赛阶段,新的参与者较难入局。
相比之下,中国的大型语言模型(chatgpt中文)呈现百花齐放的态势,目前有百余个项目声称正在开发大型模型。中国更依赖开源生态,二次开发新的语言模型。除美国外,其他国家尚未开发出与GPT-4相当的大型语言模型。尽管中国和美国在大模型技术领域仍有差距,但全球AI领域的较量还未到终局。对于中国来说,最重要的是大力发展AI应用生态。中国在互联网和数字经济时代已经是应用领域的优秀生,并且向海外输出了相关的应用实践。紧跟大模型最新技术,等应用生态繁荣后再反向做技术突破,可能是一种解决思路。
2. 大语言模型会如何发展?
虽然大语言模型领域已经实现了众多技术突破,但仍有不少可迭代和提升的领域,如减少“幻觉”、GPT中文、增加上下文长度、实现多模态、具身智能、进行复杂推理及自我迭代。
首先,讨论“幻觉”现象。幻觉可以理解为一种错误输出,Meta将其定义为“自信的假话”。幻觉的产生常见原因是语言模型采集的知识或数据密度不够。然而,幻觉也可以被视为创造力的体现,如同诗人在酒后能写出美妙的诗篇,AI的幻觉也可能带来奇妙的内容。减少幻觉的方法包括使用更高质量的语料库进行训练,通过微调和强化学习提高模型的准确性和适应性,以及在模型的提示词中加入更多背景信息。
其次,增加上下文长度。上下文长度相当于语言模型的脑容量,现在通常是32K,最高为128K,即不到10万字或英文单词。为了让语言模型理解复杂文本、处理复杂任务,需要进一步扩大上下文长度。
第三是多模态。人类主要依靠视觉获取信息,而当前语言模型主要依靠文本数据进行训练。视觉数据能帮助语言模型更好地认知物理世界。2023年,视觉数据被规模化地加入到模型训练中,如GPT-4引入了多模态数据,Google的Gemini模型也使用了大量图像和视频数据。虽然Gemini的多模态交互有明显提升,但复杂推理等智力的提升尚未显现。
第四是具身智能,即基于物理身体进行感知和行动的智能系统,能从环境中获取信息、理解问题、做出决策并行动。地球上的所有生物都可以说是具身智能,如人形机器人就是具身智能的一种形式,为AI延展出了能活动的“手脚”。
第五是复杂推理。通常,GPT中文会一次性地给出回答,没有明显的多步推理或回退迭代。而人类在思考复杂问题时,会在纸上列出一些步骤,反复推演和计算。研究人员通过思维树等思考模型,试图让GPT中文学会复杂的多步骤推理。
最后是自我迭代。现在的语言模型主要依靠人类设计算法、提供算力和喂数据。未来,语言模型能否实现自我迭代?这可能依赖于新的模型训练和微调方法,如强化学习。据说OpenAI正在尝试一种代号为“Q*”的训练方法,研究如何让AI自我迭代,但具体进展尚未知晓。
大模型还处在高速发展期,还有很大的提升空间。除了以上几点,还需解决和提升诸如可解释性、安全性及输出内容更符合人类价值观等方面的问题。
3. 未来的应用软件:AI Agent
红杉美欧(Sequoia Capital)在官网发布的《Generative AI’s Act Two》文章中提到,生成式AI已进入第二阶段。第一阶段主要集中在语言模型及周边简单应用的开发,第二阶段的焦点则转向研发真正解决客户需求的智能新应用。
未来的应用软件可能逐渐转向AI Agent——一种能够自主执行任务、独立决策、主动探索、自我迭代并能相互协作的智能软件。现有的传统软件可能需要进行相应调整和改进。与传统的1.0版本软件相比,AI Agent能提供更接近真实的、高质量的一对一服务体验。
然而,发展AI Agent的难点在于,语言模型目前还不够成熟和稳定。要做出好的应用体验,需要在语言模型基础上,加上一些小模型、一些规则算法,甚至在关键环节加入人工服务,从而在垂直场景或具体行业中输出稳定体验。
多Agent协作已经成为热门研究方向。在标准操作程序基础上,相互协作的多个AI Agent能够产生比单独调用语言模型更优的效果。这可通过一种直观的解释来理解,每个Agent各有优缺点和专攻方向,像人类分工一样,通过新的标准操作程序(SOP)各司其职、互相启发和监督协作。
结语
AI革新不仅关乎技术突破,更关乎应用生态的发展。在应用生态繁荣之前,押注核心技术源头及“卖铁锹”公司有其道理。然而,正在蓬勃发展的AI应用同样是价值创造的源泉。未来的AI应用将为我们带来新的机遇与挑战,唯有不断探索与创新,才能在这场技术革命中立于不败之地。