揭秘：8人合作半年，推出开源版GPT-4o，零延迟演示！背后技术全面解析 - GPT中文站: 免费ChatGPT中文版

法国8人团队的原生多模态AI Moshi，几乎实现了GPT-4o的水平，并且已经在技术界引起了轰动。尽管GPT-4o的正式开放可能要等到今年秋季，但Moshi的实时演示展示了令人印象深刻的零延迟效果，这让众多AI专家为之赞叹不已。

昨晚，法国AI实验室kyutai发布了首个实时原生多模态Moshi的演示，其效果与5月发布的GPT-4o相媲美。在其中一个示范中，Moshi作为助手帮助Alexa小哥模拟了一次太空之旅，让人仿佛身临其境，回忆起电影《流浪地球》中的场景。

这一突破意味着「开源版」GPT-4o的到来可能比预期更快，为AI技术的开发和普及带来了全新的可能性。

值得一提的是，这是8人团队仅用了半年的时间，从头完成了模型的训练。

Moshi目前仍处于实验原型阶段，其核心目标在于情感理解和表达，具备多模态交互能力，支持听、说、看等多种输入输出方式。最引人注目的是，Moshi能以70种不同的情绪和风格进行对话，还能在必要时灵活地打断进行回应。它的独特之处在于其实时性，可以同时处理语音输入（「听」）和输出（「说」），这得益于其先进的文本和音频混合的联合预训练技术。

利用Helium生成的文本数据，Moshi背后的模型拥有庞大的70亿参数，这使得它的响应速度极快，达到了最低160毫秒的端到端延迟。更值得一提的是，即使是轻量级版本的Moshi，也能在笔记本电脑或消费级GPU上流畅运行，大大提高了其易用性和普及性。这样的特性使得Moshi成为了一个极具潜力的开源AI项目

许多人都说这是最接近GPT-4o的模型，Moshi各种炸裂演得到了LeCun、Karpathy等AI大佬的转发。

Pytorch之父称赞道，太令人惊叹了，Kyutai实验室在实时语音助手领域处于领先地位，作为真正的非营利性开放科学组织，它将在稍后发布代码

而现在，想要体验的小伙伴们，现在可以直接加入候补名单体验了，每次对话限时5分钟。

满怀情感AI海盗、巴黎诗人上线

直播演示中，台下虚无坐席。所有观众都在耐心等待，这家成立仅半年时间的实验室将会带来怎样的惊喜。

在一场引人注目的开场中，CEO Patrick Pérez向观众介绍了Moshi，这是他们团队开发的第一个实时语音AI系统。为了训练这一复杂的模型，团队投入了大约1000个GPU的计算资源。Moshi这个名字灵感来源于日语中接电话的常用语「もしもし」，寓意着其作为沟通桥梁的角色。

随后，Patrick邀请了四位团队成员上台，共同演示Moshi的强大语音交互能力。这一展示不仅突显了Moshi在实时语音处理方面的先进技术，也向观众展示了其多样化的应用潜力。通过这样的现场演示，Moshi的实用性和创新性得到了进一步的验证和认可。

在一场引人入胜的演示中，Moshi首次亮相并进行了自我介绍，同时还解释了开源的概念及其优势。随后，团队成员与Moshi进行了多轮对话，展示了其在实时信息交流和情感表达方面的能力。例如，Moshi能够提供关于攀登珠穆朗玛峰的实用建议，尽管在对话中有时会显得过于急切，打断了用户的讲话。

在进一步的演示中，Moshi展示了其理解不同情绪和风格的能力。同事Nell要求Moshi用法语口音朗诵一首关于巴黎的诗，随后又让它模仿海盗讲述冒险故事，甚至用低沉的声音讲述《黑客帝国》的情节。这些演示突出了Moshi在情感表达和风格转换方面的灵活性。

Moshi的技术创新在于其能够同时处理语音输入和输出，这得益于其预测编码和即时更新的能力。团队介绍了Moshi如何克服传统语音AI的延迟问题，通过整合听、想、说三个步骤到一个单一模型中，实现了160毫秒的最低延迟，这在业界创下了新纪录。

Moshi的模型采用了I/O双通道系统，同时生成文本和音频编解码器，这一技术基于Kyutai的内部Mimi模型，具有高压缩比和捕捉语义及声学信息的能力。在微调过程中，Moshi使用了大量的合成对话数据和专业配音演员的录音，使其具有高度的适应性和快速微调的能力。

尽管Moshi的发布受到了一些质疑，认为其模仿GPT-4o且在某些方面不如后者完善，但HuggingFace的联合创始人Thomas Wolf为其辩护，强调Moshi的即时可用性和其在本地设备部署的潜力。

kyutai作为一家法国非营利AI实验室，致力于开源开放，其团队由六位具有杰出学术背景的成员组成，他们在科技巨头如苹果、微软、Meta和谷歌DeepMind有过研发经验。kyutai的资金主要来自私人资助和捐助，得到了法国电信巨头Iliad集团的支持，拥有强大的计算资源。

总的来说，Moshi的发布不仅展示了其技术实力，也预示着开源AI技术的新篇章，尤其是在多模态交互和实时语音处理方面。