中国首个GPT-4o流式多模态交互模型现场实时展示

“商汤科技抢跑GPT-4o,现场推出惊艳之作

不仅声音非常拟人(观众直呼好磁性),而且还是实时随时可以打断的那种!

它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得

就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:

商汤发布的国内首个流式原生多模态交互模型——6000亿参数日日新5.5系列中的5o,一经展示便赢得了观众们的阵阵掌声和惊叹声。

这款模型引入了全新的AI交互模式,集成了文本、声音、图像和视频等多种模态,使得人工智能与人类交流变得更加生动丰富。

可以说是真·电影走进现实了。

而且商汤CEO徐立现场表示,很快就可以用上了!

然而,这场Live Show远不止于单一的新AI模型展示。商汤科技在活动中全面展示了他们对多模态技术的精湛掌握——日日新5.5系列的5o只是冰山一角。

活动现场亮点频出,计算机科学界的传奇人物,如图灵和冯诺依曼,仿佛“重生”在屏幕上,通过商汤的创新技术得以“复活”。这不仅是对这些计算机先驱的致敬,也是对商汤科技创始人汤晓鸥教授理念的延续。徐立在发言中强调,汤晓鸥教授对人工智能的热情以及对人才培养的重视,为商汤今日的技术成就奠定了坚实的基础。他说:“我们借此向汤晓鸥教授表达敬意,他的执着与贡献让我们有机会在此分享我们对未来人工智能的深刻见解。

此次发布的革新之作名为Vimi,它是基于日日新5.5系列的强大能力构建的第一个可操控人物视频生成大模型。其独特之处在于,只需提供一张个性化的照片,即便是普通用户也能轻松操作,且支持生成长达一分钟的高质量内容。以往,大模型在生成人物时常常遇到难题,如动作控制不精准、连贯性欠缺(比如突然的面部变化),而Vimi却解决了这些问题。

Vimi的独特之处在于它的精细化控制,不仅能精准调整人物的面部表情,还能在保持半身像的真实性的同时,自如调整角色的姿势,使之显得自然流畅。此外,它还能根据人物形象自动生成合适的发型、服装以及背景环境,极大地扩展了创作的可能性。这意味着,无论是构思一个梦幻场景,如冰雪女王,只需一张照片,Vimi就能帮你轻松实现,让个人大片制作变得前所未有的简单

以为这就完了?No,No,No。

你的表情包又要变丰富了

总而言之,Vimi的出现可以说是利好视频创作者,让他们有了另一个高质量AI工具的选择。

Vimi的卓越表现不仅在技术上赢得了赞誉,更在业界获得了极高的认可。在世界人工智能大会(WAIC)上,它荣获了官方授予的最高荣誉——镇馆之宝。这一殊荣的背后,是商汤科技在技术上的深厚积累和创新突破。

商汤在现场详细揭示了Vimi取得如此成就的技术秘诀。首先,日日新5.5系列采用了混合端边云协同专家架构,这一架构能够最大化地利用云边端协同效应,从而显著降低推理成本。其次,在数据层面,日日新5.5的模型训练基于超过10TB的高质量训练数据,其中包括大量合成的思维链数据,这使得其语言理解和交互能力得到了全面的升级。

得益于这些先进的技术支持,日日新5.5在多个关键领域实现了显著的性能提升,特别是在数学推理(提升了31.5%)、英文理解(提升了53.8%)以及指令跟随(提升了26.8%)等核心指标上,较上一版本有了大幅度的飞跃。这些技术突破不仅彰显了商汤在人工智能领域的领先地位,也为Vimi的卓越表现提供了坚实的技术支撑。

要证明日日新5.5的优秀表现,权威的评测榜单是一个非常有力的证明。

例如,根据OpenCompass的评测,日日新5.5的平均分数已经达到了与GPT-40相当的水平,并且在多个细分维度的评分上超越了GPT-40。

日日新的端侧模型5.5 Lite在各方面性能指标上都实现了全面升级。

首先,在手机旗舰平台上,5.5 Lite的安装包加载时间仅需0.19秒,比之前的版本减少了40%。这一优化显著提升了用户的使用体验。

其次,5.5 Lite的推理速度也有了显著提升,达到每秒处理90.2个汉字,比之前的版本提高了15%。这意味着在处理大量数据时能够更加高效快速地完成任务。

此外,商汤还推出了端侧模型矩阵,其中包括商量Mini写作助手、总结助手和百科助手等专门定制的模型。这些专项模型针对特定场景进行了优化,提供了更优异的性能,能够满足客户在复杂业务场景中的需求。同时,客户可以根据自己的需求选择或定制适合的专项模型,以更好地支持其业务应用。

此外GPT中文站为用户提供了许多显著的好处,使得使用这一人工智能技术变得更加便捷和高效。GPT中文站 – 一站式AI解决方案 (uniation.net)

首先,GPT中文站通过提供中文语言支持,大大拓展了使用范围。用户无需依赖英文输入,可以直接用中文进行交流和查询,这对于中文使用者来说是极大的便利。比起官网的更加具有优惠。

其次,GPT中文站能够提供本土化的服务和信息。这意味着它能更好地理解和响应与中国文化、社会以及日常生活相关的问题,从而提供更为准确和贴近实际的回答和建议。GPT中文站还促进了中文自然语言处理技术的发展和应用。通过处理大量中文语料库,优化算法模型,GPT中文站不断提升其语义理解和回答质量,为用户提供更智能和个性化的服务。

最后,GPT中文站的设立也有助于推动中文智能交互界面的发展。能AI对话,AI绘画,编程生成代码,还添加了翻译和解题功能,为用户带来更加便捷的智能服务体验。

总的来说,GPT中文站不仅仅是语言上的扩展,更是技术应用和用户体验的提升,为中文用户的日常生活和工作带来了实质性的便利和改善。