ChatGPT过去整整一年吸引了人们大量的关注,人工智能也因此成为当下的风口,看似是忽如一夜春风来的领域,其实在过去二十多年里就已经不断带给我们冲击。
人工智能(Artificial Intelligence,AI)概念最早由数学家、逻辑学家兼计算机科学家艾伦·麦席森·图灵(Alan Mathison Turing)于1950年发表的论文《计算机器与智能》(Computing Machinery and Intelligence)中提出。与之被一并提及的还有“图灵测试”概念,这个概念成为衡量机器是否具有智能的标准,并在之后推动了人工智能研究的发展。
图为艾伦·麦席森·图灵(Alan Mathison Turing) 和他的团队在布莱切利园使用的设备“Bombe”。
1997年,IBM的Deep Blue超级计算机在国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫,引起了全球广泛关注,标志着人工智能技术在某些领域的应用和进展。2011年,IBM的Watson人工智能系统在美国的知名智力竞赛节目《Jeopardy! 》上击败了人类选手,标志着人工智能技术的发展已经能够处理自然语言问题。2015年,AlphaGo击败了围棋世界冠军李世石,标志着人工智能技术在非结构化数据处理和决策制定方面的能力的大幅提升。
图为IBM的Deep Blue超级计算机在国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫(图片来自于网络)。
在2019年初,OpenAI首次发布了GPT-2,这是一种规模庞大的语言模型,具有1.5亿至15亿个参数。由于担心其在生成文本方面的滥用潜力,OpenAI最初限制了模型的访问。随后,他们逐渐释放了不同规模的GPT-2模型。
2023年,OpenAI推出的基于GPT-4架构的ChatGPT引起了广泛关注和热议。其强大的自然语言处理能力和生成能力,使得人工智能在内容生成领域取得了突破性进展。英伟达在2023年推出了具有更高算力的AI芯片,这些芯片为人工智能模型提供了强大的计算支持。随着计算能力的提高,AI模型可以处理更大规模的数据集并进行更复杂的任务,从而推动了人工智能内容生成领域的创新和发展。
当机器学习模型积累了越来越多的参数和计算能力、规模越来越大——就变成了拥有强大泛化能力、能处理更复杂规律的大模型。如果说原来传统意义上的小模型是一个只在某个专业受特定训练的技校生,那么大模型就是一个刷题无数、各种通用题库都会做、还会举一反三的大学做题家。GPT就是一个非常著名的大模型。
GPT-3有1750亿个参数,可以用来生成各种语言模型,比如自然语言理解、语言生成、对话系统等等;而GPT-4的规模比它还大六倍,有超过1万亿个参数。这么大的模型,训练一次要多少钱?GPT-3训练一次的成本达到140万美元,那些更大的模型,训练成本在200万美元到1200万美元之间。大模型的训练和使用,也是一场烧钱大战。除了需要大量的数据,还需要芯片、服务器、算力、电费等等各环节的支持。这也就是为什么,大模型的激战其实也是科技巨头的主战场——毕竟普通创业者的数据体量和资金规模都达不到巨头的水平,他们的普遍选择是接入某个现有大模型,开发适配自己业务的应用。
训练和使用大模型的门槛这么高,有一个问题也应运而生,那就是它未来能在各行业普及吗?MLOps(机器学习运维),或许是个解决方案。如果我们把AI的落地应用比作一架飞机,那大模型就是这架飞机的引擎;引擎是飞机运行的关键,但是只靠引擎还是不能保证飞行的稳定与安全;而MLOps就是飞机的飞行控制系统,能够管理、控制整个飞行过程,让大模型在训练和生产环境中的运行状态保持良好。
再换个更具体的例子:如果AI的落地应用是个餐厅,那数据科学家是大厨,大模型则是餐厅里的菜品,大厨负责把这些数据原材料转换成菜品;机器学习工程师则是那个保证菜品(也就是大模型)在餐厅各个环节都能够确保质量稳定与一致的人。