商汤发布“流式多模态大模型”引领国内“人机交互革命”的开端

在上海举行的世界人工智能大会(WAIC)犹如中国大模型公司的一次年中考试。各家公司纷纷展示最新进展,参与2023年的“百模大战”刷榜比拼大模型性能参数,彰显对AI 2.0“应用元年”的理解。

今年,各家AI公司根据各自对AI应用和大模型技术的理解,探寻独特发展之路。大模型价格战后,市场似乎少见出现为单点因素不计代价的竞争情况。

在WAIC发布会上,大模型公司不再单纯竞争参数性能,而更注重展示自家模型、产品特点和生态搭建的差异化。追求在应用层找到落地思路。

快速迭代模型性能的公司不仅在于集中于测评,更基于技术路径和优势努力推出引人注目的技术和产品。

OpenAI和谷歌推出基于原生多模态能力的GPT-40和“Project Astro”模型产品,试图重塑人机交互新范式,而商汤也推出“日日新50”作为国内首个所见即所得模型,致力于实时流式多模态交互新模式。

人类历史上的人机交互革命,使得产品和公司载入史册。商汤的发布会涵盖智能驾驶、可控视频生成、医疗行业应用以及出海举措等内容。或许,日日新50的发布将成为未来数年被引领时代的重要时刻。

当工作人员刚刚和“日日新50”打个招呼时,它立即识别出工作人员脖子上胸卡带的字眼,确认现场为世界人工智能大会会场,并友好地建议在这里“好好学习”。

随后,工作人员拿起了一个可爱的小狗玩偶,而“日日新50”则准确地描述了小狗的外貌、表情,以及它身上重要的特征——一顶印有商汤科技logo的白色帽子,展现出强烈的公司形象。

进一步提升难度,随意翻开一本书的任意一页,”日日新50″都能立即进行自动介绍。这不仅仅是简单的OCR文字识别,而是通过识别图文内容,并提供易于理解的精炼总结,所有这些过程都在瞬息之间完成,实现真正的实时交互。

在绘画环节中,工作人员随手画了一只简笔画的小兔子,“日日新50”立刻赞道:“画得真可爱!”接着,工作人员又画了一个微笑的表情。模型从这个平和的表情中捕捉到了笑意,但工作人员又突然改变画笔,画了个大嘴巴和舌头。看到这幅画,“日日新50”立即评论道:“这个表情看起来更加开心了!”

在商汤的展台上,我们亲身体验了“日日新50”的能力。一位参观者觉得商汤准备好的几个固定玩偶和书籍可能是提前安排的,于是随手拿出一瓶自带的矿泉水让模型识别。模型毫不费力地识别出这是一瓶喝了一半的农夫山泉。

随后,观众又随手翻开旁边的书本,让“日日新50”通过摄像头来总结书中内容,模型都能应对自如。

这些功能的实现,都得益于商汤培训的原生多模态大模型的能力。它能实时快速地处理多种模态数据,使得用户与AI之间的交互变得极其流畅。商汤也首次用中文定义了像GPT-4o这样的交互模式——流式原生多模态交互模型。

WAIC镇馆之宝——Vimi视频生成模型

而除了这个流式多模态大模型的展示之外,商汤还带来了他们视频生成的最新进展——Vimi。

Vimi是基于”日日新55″的能力打造的首个可控人物视频生成大模型。利用任意风格的一张照片,甚至普通用户也能轻松生成长达1分钟的视频内容。

在大模型生成中,控制人物的表现一直是一个挑战。即使是像Sora这样的先进技术也难以精确控制动作,而且连贯性常常无法保证,人物面部特征和细节也容易出现扭曲。

然而,Vimi独具特色。它可以精准控制人物的面部表情和半身姿态,同时自动生成与人物相匹配的头发、服装和背景变化。生成的视频时长可长达数分钟。

在官方公布的演示中,只需一张照片,即可瞬间转变为冰雪女王的形象。

官方更是用Vimi将图灵,香农等计算机发展史上的大咖都复活起来,而且随着人物的运动,五官特征都得以保留的很好。

同样的GPT中文站的AI绘画也是能生成这种图片。GPT中文站不仅能生成图片,还能AI对话、代码编写、AI绘画、AI解题一站式AI解决方案。GPT中文站 – ChatGPT中文官网入口,免费ChatGPT中文版、GPT4、AI绘画、AI编程、AI翻译、AI创作 (uniation.net)

包含GPT-4、GPT-4o、Claude 3.5等国内外ALLM、BLLM多种AI模型;
ChatGPT 网页版、Midjourney AI;
AI对话、代码编写、AI绘画、AI解题、小红书抖音头条等自媒体营销文案、工作报告、学术论文,高级翻译、还是将灵感变成故事,您都能在这里得到助力。