揭秘:8人合作半年,推出开源版GPT-4o,零延迟演示!背后技术全面解析

法国8人团队的原生多模态AI Moshi,几乎实现了GPT-4o的水平,并且已经在技术界引起了轰动。尽管GPT-4o的正式开放可能要等到今年秋季,但Moshi的实时演示展示了令人印象深刻的零延迟效果,这让众多AI专家为之赞叹不已。

昨晚,法国AI实验室kyutai发布了首个实时原生多模态Moshi的演示,其效果与5月发布的GPT-4o相媲美。在其中一个示范中,Moshi作为助手帮助Alexa小哥模拟了一次太空之旅,让人仿佛身临其境,回忆起电影《流浪地球》中的场景。

这一突破意味着「开源版」GPT-4o的到来可能比预期更快,为AI技术的开发和普及带来了全新的可能性。

值得一提的是,这是8人团队仅用了半年的时间,从头完成了模型的训练。

Moshi目前仍处于实验原型阶段,其核心目标在于情感理解和表达,具备多模态交互能力,支持听、说、看等多种输入输出方式。最引人注目的是,Moshi能以70种不同的情绪和风格进行对话,还能在必要时灵活地打断进行回应。它的独特之处在于其实时性,可以同时处理语音输入(「听」)和输出(「说」),这得益于其先进的文本和音频混合的联合预训练技术。

利用Helium生成的文本数据,Moshi背后的模型拥有庞大的70亿参数,这使得它的响应速度极快,达到了最低160毫秒的端到端延迟。更值得一提的是,即使是轻量级版本的Moshi,也能在笔记本电脑或消费级GPU上流畅运行,大大提高了其易用性和普及性。这样的特性使得Moshi成为了一个极具潜力的开源AI项目

许多人都说这是最接近GPT-4o的模型,Moshi各种炸裂演得到了LeCun、Karpathy等AI大佬的转发。

Pytorch之父称赞道,太令人惊叹了,Kyutai实验室在实时语音助手领域处于领先地位,作为真正的非营利性开放科学组织,它将在稍后发布代码

而现在,想要体验的小伙伴们,现在可以直接加入候补名单体验了,每次对话限时5分钟。

满怀情感AI海盗、巴黎诗人上线

直播演示中,台下虚无坐席。所有观众都在耐心等待,这家成立仅半年时间的实验室将会带来怎样的惊喜。

在一场引人注目的开场中,CEO Patrick Pérez向观众介绍了Moshi,这是他们团队开发的第一个实时语音AI系统。为了训练这一复杂的模型,团队投入了大约1000个GPU的计算资源。Moshi这个名字灵感来源于日语中接电话的常用语「もしもし」,寓意着其作为沟通桥梁的角色。

随后,Patrick邀请了四位团队成员上台,共同演示Moshi的强大语音交互能力。这一展示不仅突显了Moshi在实时语音处理方面的先进技术,也向观众展示了其多样化的应用潜力。通过这样的现场演示,Moshi的实用性和创新性得到了进一步的验证和认可。

在一场引人入胜的演示中,Moshi首次亮相并进行了自我介绍,同时还解释了开源的概念及其优势。随后,团队成员与Moshi进行了多轮对话,展示了其在实时信息交流和情感表达方面的能力。例如,Moshi能够提供关于攀登珠穆朗玛峰的实用建议,尽管在对话中有时会显得过于急切,打断了用户的讲话。

在进一步的演示中,Moshi展示了其理解不同情绪和风格的能力。同事Nell要求Moshi用法语口音朗诵一首关于巴黎的诗,随后又让它模仿海盗讲述冒险故事,甚至用低沉的声音讲述《黑客帝国》的情节。这些演示突出了Moshi在情感表达和风格转换方面的灵活性。

Moshi的技术创新在于其能够同时处理语音输入和输出,这得益于其预测编码和即时更新的能力。团队介绍了Moshi如何克服传统语音AI的延迟问题,通过整合听、想、说三个步骤到一个单一模型中,实现了160毫秒的最低延迟,这在业界创下了新纪录。

Moshi的模型采用了I/O双通道系统,同时生成文本和音频编解码器,这一技术基于Kyutai的内部Mimi模型,具有高压缩比和捕捉语义及声学信息的能力。在微调过程中,Moshi使用了大量的合成对话数据和专业配音演员的录音,使其具有高度的适应性和快速微调的能力。

尽管Moshi的发布受到了一些质疑,认为其模仿GPT-4o且在某些方面不如后者完善,但HuggingFace的联合创始人Thomas Wolf为其辩护,强调Moshi的即时可用性和其在本地设备部署的潜力。

kyutai作为一家法国非营利AI实验室,致力于开源开放,其团队由六位具有杰出学术背景的成员组成,他们在科技巨头如苹果、微软、Meta和谷歌DeepMind有过研发经验。kyutai的资金主要来自私人资助和捐助,得到了法国电信巨头Iliad集团的支持,拥有强大的计算资源。

总的来说,Moshi的发布不仅展示了其技术实力,也预示着开源AI技术的新篇章,尤其是在多模态交互和实时语音处理方面。