Llama3 - 开源模型的新霸主

Meta宣布，Llama 3在多个关键基准测试中超越业界先进同类模型，特别是在代码生成和复杂推理任务上实现了全面领先。Llama 3能够更好地遵循指令，解决很多微妙的问题，并且可以可视化想法。

Llama 3的主要亮点包括：

基于超过15T token的训练，相当于Llama 2数据集的7倍还多；
支持8K长文本，改进的tokenizer具有128K token的词汇量，可实现更好的性能；
在大量重要基准中均具有最先进性能；
新能力范畴，包括增强的推理和代码能力；
训练效率比Llama 2高3倍；
带有Llama Guard 2、Code Shield和CyberSec Eval 2的新版信任和安全工具。

最新发布的8B和70B版本Llama 3模型已经用于Meta AI助手，同时也面向开发者进行了开源，包括预训练和微调版本。Llama 3可以说是Llama 2的重大飞跃，由于预训练和后训练的改进，本次发布的预训练和指令微调模型是当今8B和70B参数规模中的最佳模型。

Llama 3将数据和规模提升到新的高度。Meta表示，Llama 3是在两个定制的24K GPU集群上、基于超过15T token的数据上进行了训练——相当于Llama 2数据集的7倍还多，代码数据相当于Llama 2的4倍。从而产生了迄今为止最强大的Llama模型，Llama 3支持8K上下文长度，是Llama 2容量的两倍。

Meta还开发了一套新的高质量人类评估数据集。该评估集包含1800个提示，涵盖12个关键用例：寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色、开放式问答、推理、重写和总结。为了防止Llama 3在此评估集上出现过度拟合，Meta表示他们自己的团队也无法访问该数据集。

为了训练最好的语言模型，管理大型、高质量的训练数据集至关重要。Meta在预训练数据上投入了大量成本。Llama 3使用超过15T的token进行了预训练，这些token都是从公开来源收集的。总体上讲，Llama 3的训练数据集是Llama 2使用的数据集的七倍多，并且包含四倍多的代码。为了为即将到来的多语言用例做好准备，超过5%的Llama 3预训练数据集由涵盖30多种语言的高质量非英语数据组成。

为了确保Llama 3接受最高质量数据的训练，研究团队开发了一系列数据过滤pipeline，包括使用启发式过滤器、NSFW过滤器、语义重复数据删除方法和文本分类器来预测数据质量。研究团队发现前几代Llama非常擅长识别高质量数据，因此Meta使用Llama 2为给Llama 3提供支持的文本质量分类器生成训练数据。

Meta表示，最大的Llama 3参数超过400B，虽然这些机型仍在训练中，但在接下来的几个月中也将陆续发布，新功能包括多模态、多语言对话能力、更长的上下文窗口以及更强的整体能力。

Meta希望Llama 3能赶上OpenAI的GPT-4。知情人士透露，因为研究人员尚未开始对Llama 3进行微调，所以尚未决定Llama 3是否将是多模态模型。微调是开发人员为现有模型提供额外数据的过程，以便它可以学习新信息或任务。较大的模型通常会提供更高质量的答复，而较小的模型往往会更快的提供答复。有消息称，正式版的Llama 3将会在今年7月正式推出。

Meta还宣布与Alphabet的谷歌建立新的合作伙伴关系，在助手的答复中包括实时搜索结果，作为与微软必应现有合作的补充。随着此次更新，Meta AI助手正在扩展到美国以外的十多个市场，包括澳大利亚、加拿大、新加坡、尼日利亚和巴基斯坦。考克斯说，Meta“仍在努力以正确的方式在欧洲做到这一点”。欧洲的隐私规定更加严格，即将出台的人工智能法案也准备提出披露模型训练数据等要求。

Llama3 – 开源模型的新霸主