商汤发布“流式多模态大模型”，引领国内“人机交互革命”的序幕 - GPT中文站: 免费ChatGPT中文版

今年在上海举办的世界人工智能大会（WAIC），成为了中国各大模型公司的一次重要检验。每家公司都全力以赴，展示他们最新的进展和技术。

2023年的“百模大战”推动了各家公司竞相提升大模型的性能参数。在AI 2.0的“应用元年”，各家公司都根据自己对AI应用和大模型技术的理解，试图寻找独特的突破之路。

年初的大模型价格战降低了API的成本，使得市场上少见针对单一指标不惜成本的竞争。

在今年的WAIC上，国内各大模型公司的新品发布会上，不再单纯强调模型性能的比拼，而是更多地展示各自模型与产品的特点、生态系统建设等差异化因素，力求在实际应用中找到立足之地。

那些继续迭代模型性能的公司，不仅在评估集上下功夫，还根据自身技术路径和优势推出引人注目的技术和产品。

今年5月，OpenAI和谷歌先后推出了基于原生多模态大模型的新产品——GPT-4o和“Project Astro”。这些产品利用模型的多模态能力，使用户能够通过声音和摄像头与模型进行自然、低延迟的交互，旨在重塑人机交互的新范式。

商汤也是国内首家跟进的大模型公司之一，他们基于原生多模态基础模型，迅速推出了“日日新5o”。商汤将其定义为国内首个实时流式多模态交互模型，希望为AI应用带来全新的模式。

自计算机发明以来，人机交互的平台级革命每次都带来历史性的产品和公司：微软通过图形化界面成为全球科技巨头，Windows成为PC的核心；iPhone开启了移动互联网时代，使苹果成为最受欢迎和最赚钱的科技公司之一。

因此，OpenAI和谷歌选择朝多模态方向持续迭代大模型技术，可能会掀起新一轮技术和应用的革命。

硬刚GPT-4o的流式多模态大模型：

商汤的发布会不仅展示了多项更新和突破，还介绍了智能驾驶、可控视频生成和医疗行业应用等实例，展示了他们的多方面发展战略。而“日日新5o”的发布，可能会成为未来数年甚至十年人们津津乐道的重要时刻，开启全新的时代。

接着，工作人员拿出了一个可爱的小狗玩偶，而“日日新50”精准地描述了小狗的外观、表情，还特别提到它戴着一顶印有商汤科技logo的白色帽子，显示出了很高的品味。

再上些难度，随便翻开一本书的任何一页，“日日新5o”都能自动介绍，不是简单的OCR识别文字，而是识别图文给出好理解的总结，这一切在瞬间即可完成，真正做到实时交互。

在接下来的情景中，工作人员展示了自己的绘画技能，随手画了一只简笔画的小兔子。”日日新50″赞叹这幅画画得十分可爱。随后，工作人员画了一个微笑的表情，”日日新50″从这个温暖的表情中感受到了快乐。工作人员又做了一些修改，让嘴巴更大，增加了一条舌头，”日日新50″看到后马上说这个表情看起来更加开心。

在商汤科技的展台上，我们亲身体验了”日日新50″的能力。一位参观者觉得商汤展台上准备的玩偶和书本可能是事先准备好的。于是，他随手拿出自己带的一瓶矿泉水让模型去识别。”日日新50″毫不费力地识别出这是一瓶已经喝了一半的农夫山泉。

随后，观众随意翻开了旁边的一本书，挑战让模型通过摄像头理解书页的内容，”日日新50″都能流畅地给出回应，展现出了惊人的即时内容理解和分析能力。

这些功能的背后，是商汤自主研发的原生多模态大模型的强大支持，它实现了快速、实时的多模态数据处理，极大地提升了人与AI之间的无缝互动体验。商汤首次用中文定义了这种新型交互方式——流式原生多模态交互模型，如同GPT-4o般高效且自然。

在本次活动中，作为WAIC（世界人工智能大会）的核心亮点，商汤展示了他们的另一杰作——Vimi视频生成模型。除了流式多模态大模型的演示，Vimi的出现标志着商汤在视频生成技术领域的最新突破，为观众带来了前所未

Vimi是基于日日新5.5的能力打造的首个可控人物视频生成大模型。只需使用任意风格的照片，普通用户也能生成长达1分钟的视频。

在大模型生成中，控制人物的动作和连续性一直是难题，即使像Sora这样强大的模型也难以精确控制，常常会出现五官和细节方面的畸变。

然而，Vimi却不同，它能精确控制人物面部表情和半身像的自然姿态。此外，还能自动生成与人物相匹配的头发、服装和背景变化，视频时长可达一分钟。

官方公开的演示中，一张普通照片迅速转变为冰雪女王的形象。

官方更是用Vimi将图灵，香农等计算机发展史上的大咖都复活起来，而且随着人物的运动，五官特征都得以保留的很好。

其实这和我们GPT中文站的MJ绘画类似的，只要给AI一句话，就能生成你想要的图片！