李彦宏:无应用,则基础模型徒具虚名,商业化闭源模型方显真章

“在竞争白热化的背景下,商业化闭源模型方能展现其真正的实力。此外,若无实际应用,基础模型便如同虚设。”

7月4日,在2024世界人工智能大会暨人工智能全球治理高级别会议产业发展主论坛上,百度(Nasdaq:BIDU,09888.HK)的创始人、董事长兼首席执行官李彦宏如是说。他回顾了2023年国内百模大战的盛况,虽造成了资源的巨大浪费,却也奠定了国内追赶世界顶尖基础模型能力的基础。

李彦宏已是世界人工智能大会的常客,去年因故未能出席,而在2022年的大会上,他以AIGC为主题,探讨了AI技术从识别到生成的转变。五个月后,ChatGPT的发布,让他感慨:“两年间,世界已天翻地覆,人工智能颠覆了我们对技术的认知。”

关于开源与闭源模型的讨论,李彦宏指出,外行人常混淆模型开源与代码开源的概念。模型开源虽提供了大量参数,但仍需进行监督微调与安全对齐。若不了解参数的来源,便无法实现众人拾柴火焰高的效果。即使获取了源代码,也无法知晓使用了多少数据及何种比例的数据来训练这些参数。

“获取这些信息,并不能让你站在巨人的肩膀上进行迭代与开发。在同等参数规模下,闭源模型的能力通常优于开源模型。若开源模型要追平闭源模型的能力,则需要更大的参数规模,这将导致推理成本增加,反应速度减慢。”李彦宏解释道,许多人试图通过修改开源模型来服务个性化应用,却不知这创造了一个孤本模型,既无法从基础模型的持续升级中获益,也无法与他人共享算力。

李彦宏也认可开源模型在学术研究等场景中的价值,但他强调,在激烈竞争的市场环境中,闭源模型仍是首选。

据澎湃新闻记者了解,李彦宏曾在多个场合谈及开源模型的局限性。今年4月11日,澎湃新闻记者获取的一份李彦宏内部谈话实录显示,他认为国外的Llama、Mistral等开源模型已颇具影响力,国内的智源、百川、阿里的通义等也是开源模型,市场上并不缺少百度的开源模型。百度若要开源,还需自行维护一套开源版本,这并不划算。李彦宏的判断是,闭源模型才能形成真正的商业模式,聚集人才与算力。

此外,相较于模型开源与闭源的讨论,李彦宏更看重应用的重要性。因此,他从去年下半年开始,在各类公开场合呼吁业界关注应用而非模型。“我看到许多人仍将注意力集中在基础模型上,不断进行跑分、刷榜,谁超越了GPT-4,OpenAI又发布了Sora、GPT-4o等。今天有震撼发布,明天有史诗级更新,但我要问,应用在哪里?谁从中获益了?”

李彦宏认为,应用并不遥远,最简单的形式是智能体,这也是百度最看好的AI应用发展方向,搜索是智能体分发的最大入口。例如,刚刚过去的高考季,许多大模型公司热衷于写高考作文,李彦宏认为其实用价值有限,真正的需求是大量考生在考完之后需要报志愿,选择学校与专业,这时需要一个智能体来回答考生专业的问题。

值得注意的是,谈及大模型应用时,常有人质疑缺乏“杀手级”应用。对此,李彦宏的观点是,业界应避免陷入“超级应用陷阱”,认为必须出现一个DAU达到10亿的APP才算成功。“这是移动时代的思维逻辑,其实不一定。AI时代,‘超级能干’的应用比只看DAU的‘超级应用’更重要。只要对产业、对应用场景能产生大的增益,整体的价值就比移动互联网要大得多。”

聚焦到百度这家企业的运营上,一季度,百度智能云营收达47亿元,并持续实现非美国通用会计准则下的盈利。收入增长的背后有两个主要因素:一是生成式人工智能和基础模型直接产生的增量收入,二是传统云业务带来的新机会。

财报电话会上,李彦宏表示,公司正从以互联网为中心转向人工智能优先,推进用文心大模型重构To C和To B业务。目前,文心大模型日均处理Tokens文本约2500亿,日均调用量2亿次。