商汤发布“流式多模态大模型”,引领国内“人机交互革命”的序幕

今年在上海举办的世界人工智能大会(WAIC),成为了中国各大模型公司的一次重要检验。每家公司都全力以赴,展示他们最新的进展和技术。

2023年的“百模大战”推动了各家公司竞相提升大模型的性能参数。在AI 2.0的“应用元年”,各家公司都根据自己对AI应用和大模型技术的理解,试图寻找独特的突破之路。

年初的大模型价格战降低了API的成本,使得市场上少见针对单一指标不惜成本的竞争。

在今年的WAIC上,国内各大模型公司的新品发布会上,不再单纯强调模型性能的比拼,而是更多地展示各自模型与产品的特点、生态系统建设等差异化因素,力求在实际应用中找到立足之地。

那些继续迭代模型性能的公司,不仅在评估集上下功夫,还根据自身技术路径和优势推出引人注目的技术和产品。

今年5月,OpenAI和谷歌先后推出了基于原生多模态大模型的新产品——GPT-4o和“Project Astro”。这些产品利用模型的多模态能力,使用户能够通过声音和摄像头与模型进行自然、低延迟的交互,旨在重塑人机交互的新范式。

商汤也是国内首家跟进的大模型公司之一,他们基于原生多模态基础模型,迅速推出了“日日新5o”。商汤将其定义为国内首个实时流式多模态交互模型,希望为AI应用带来全新的模式。

自计算机发明以来,人机交互的平台级革命每次都带来历史性的产品和公司:微软通过图形化界面成为全球科技巨头,Windows成为PC的核心;iPhone开启了移动互联网时代,使苹果成为最受欢迎和最赚钱的科技公司之一。

因此,OpenAI和谷歌选择朝多模态方向持续迭代大模型技术,可能会掀起新一轮技术和应用的革命。

硬刚GPT-4o的流式多模态大模型

商汤的发布会不仅展示了多项更新和突破,还介绍了智能驾驶、可控视频生成和医疗行业应用等实例,展示了他们的多方面发展战略。而“日日新5o”的发布,可能会成为未来数年甚至十年人们津津乐道的重要时刻,开启全新的时代。

接着,工作人员拿出了一个可爱的小狗玩偶,而“日日新50”精准地描述了小狗的外观、表情,还特别提到它戴着一顶印有商汤科技logo的白色帽子,显示出了很高的品味。

再上些难度,随便翻开一本书的任何一页,“日日新5o”都能自动介绍,不是简单的OCR识别文字,而是识别图文给出好理解的总结,这一切在瞬间即可完成,真正做到实时交互。

在接下来的情景中,工作人员展示了自己的绘画技能,随手画了一只简笔画的小兔子。”日日新50″赞叹这幅画画得十分可爱。随后,工作人员画了一个微笑的表情,”日日新50″从这个温暖的表情中感受到了快乐。工作人员又做了一些修改,让嘴巴更大,增加了一条舌头,”日日新50″看到后马上说这个表情看起来更加开心。

在商汤科技的展台上,我们亲身体验了”日日新50″的能力。一位参观者觉得商汤展台上准备的玩偶和书本可能是事先准备好的。于是,他随手拿出自己带的一瓶矿泉水让模型去识别。”日日新50″毫不费力地识别出这是一瓶已经喝了一半的农夫山泉。

随后,观众随意翻开了旁边的一本书,挑战让模型通过摄像头理解书页的内容,”日日新50″都能流畅地给出回应,展现出了惊人的即时内容理解和分析能力。

这些功能的背后,是商汤自主研发的原生多模态大模型的强大支持,它实现了快速、实时的多模态数据处理,极大地提升了人与AI之间的无缝互动体验。商汤首次用中文定义了这种新型交互方式——流式原生多模态交互模型,如同GPT-4o般高效且自然。

在本次活动中,作为WAIC(世界人工智能大会)的核心亮点,商汤展示了他们的另一杰作——Vimi视频生成模型。除了流式多模态大模型的演示,Vimi的出现标志着商汤在视频生成技术领域的最新突破,为观众带来了前所未

Vimi是基于日日新5.5的能力打造的首个可控人物视频生成大模型。只需使用任意风格的照片,普通用户也能生成长达1分钟的视频。

在大模型生成中,控制人物的动作和连续性一直是难题,即使像Sora这样强大的模型也难以精确控制,常常会出现五官和细节方面的畸变。

然而,Vimi却不同,它能精确控制人物面部表情和半身像的自然姿态。此外,还能自动生成与人物相匹配的头发、服装和背景变化,视频时长可达一分钟。

官方公开的演示中,一张普通照片迅速转变为冰雪女王的形象。

官方更是用Vimi将图灵,香农等计算机发展史上的大咖都复活起来,而且随着人物的运动,五官特征都得以保留的很好。

其实这和我们GPT中文站的MJ绘画类似的,只要给AI一句话,就能生成你想要的图片!