尽管OpenAI率先推出了重磅新品,谷歌却在后发中领先一步,首次推出人工智能搜索引擎,保持其在搜索领域的领先地位,并用升级后的强大AI模型Gemini,对抗OpenAI新发布的GPT-4o模型。
从北京时间5月15日凌晨1点开始,谷歌在其山景城总部附近的海岸线圆形剧场举行了持续两小时的年度I/O开发者大会。此次大会的主题几乎全围绕AI,演讲中AI一词被提及高达120次。
谷歌CEO Sundar Pichai强调,公司所有项目都是围绕Gemini模型进行的,“我们希望人们都能从Gemini的应用中受益。”其中,AI搜索引擎就是一个将Gemini集成进谷歌多个服务的例子。此外,谷歌搜索还将增加多步骤推理能力,能够一次性解决包含多个限制条件的复杂问题,并引入基于视频的搜索解决方案。
谷歌还展示了其大名鼎鼎的Gemini 1.5 Pro模型,宣布将其现有的100万Tokens的上下文窗口扩展至200万Tokens,以更好地处理多模态信息。对于需要快速响应的场景,谷歌推出了Gemini 1.5 Flash模型。而在多模态领域,谷歌发布了Imagen 3工具、与YouTube和音乐家合作的AI音乐沙盒,以及最新的视频生成模型Veo。此外,多模态Gemini Nano模型将于今年晚些时候登陆Pixel手机,成为机载模型。
谷歌的此次发布会中还包括了实时AI助手的功能,如语音实时交互和即将上线的实时视频交互,类似OpenAI前一日的展示。此外,谷歌还计划推出名为Gems的定制AI助手,可与谷歌全系列产品联动。
在硬件方面,谷歌宣布了第六代TPU芯片Trillium,并透露将在明年初使用英伟达最新的Blackwell架构GPU。此外,液冷和光缆等技术也在发布会上被提及,可能引起中国投资者的关注。
总的来说,谷歌在此次开发者大会上展示了其在AI领域的最新进展和未来计划,突出了Gemini 1.5 Pro的200万token的全球最长上下文窗口,显示了其在AI技术方面的领先地位。
谷歌最近宣布推出其最强大的AI模型之一,Gemini Advanced,它将在三个月内登场。本周二,谷歌在Gemini Advanced系列中新增了Gemini 1.5 Pro,这一模型以其在全球消费级聊天机器人中拥有最长的上下文窗口而引人注目,起始窗口达到100万个token。这款新模型将提供给150多个国家和地区的订阅者,并支持超过35种语言。谷歌CEO Sundar Pichai指出,Gemini 1.5 Pro具有200万个token的上下文窗口,是现有模型的两倍。
此外,谷歌还计划今年夏季扩展Gemini的多模态功能,包括一项名为“Live”的新功能,允许用户通过深入的双向语音对话与Gemini交互。通过Gemini Live,用户可以选择多种自然声音中的一种作为其响应,并能够在对话过程中自由打断和澄清问题。
谷歌还将在Gemini Advanced中增加一项新的旅行规划功能,利用时间和空间物流的先进推理技术,帮助用户节省规划时间并创建个性化行程。接下来的几周内,谷歌还将引入一项新的数据分析功能,用户可以上传电子表格,Gemini便能够分析数据、生成图表并快速挖掘见解。
谷歌还将推出一种名为Gem的定制版Gemini。通过描述他们希望Gem实现的功能和响应方式,用户可以个性化定制Gemini,让它成为健身伙伴、厨师助手、编程伙伴或创意写作指导。
谷歌还宣布了一个新的多模态AI项目,名为Project Astra,该项目可以解释用户通过智能手机摄像头拍摄到的物体。例如,Gemini可以识别一个红苹果,并回答有关摄像头视野中哪些东西可以发声的问题。
最后,谷歌表示将很快为Gemini Nano模型添加多模式功能,使安卓系统手机上的Gemini Nano更具上下文感知能力。通过这种方式,用户的手机将能够更全面地通过文本、图像、声音和口语理解世界。