Phi-3: 微软新LLM，性能超越Llama-3，支持在手机端运行

微软近日宣布推出升级版的小型语言模型——Phi-3，这款模型的迷你版Phi-3 mini仅拥有38亿参数，却能在手机上运行，且性能堪比大型模型。经过3.3万亿个token的训练，Phi-3 mini在学术基准和内部测试中展现出色表现，与Mistral 8x7B和GPT-3.5等模型相比毫不逊色。

Phi-3系列模型采用了与Llama-2相同的架构，便于开源社区进一步开发和完善。微软的Phi系列自推出以来就备受瞩目。去年，微软凭借仅用7B token的“教科书质量”数据训练出的1.3B参数模型Phi-1，在业界的性能评测中取得了良好成绩。随后，Phi-1.5和Phi-2模型的发布，进一步展示了微软在小型模型上的突破。

最新的Phi-3 mini模型在严格的网络数据和合成数据（类似Phi-2的训练方式）上进行了训练，并对模型的稳健性、安全性和对话格式进行了优化。此外，微软还提供了7B和14B参数版本的Phi-3模型，即Phi-3-small和Phi-3-medium，它们在性能上更为强大。

安全性方面，Phi-3 mini遵循微软的负责任人工智能原则，通过后训练的安全调整、红队测试、自动化测试及对多个RAI风险类别的评估，确保了模型的安全性。利用经改进的有用和无害偏好数据集及内部生成的数据集，微软对Phi-3 mini进行了全面的安全性优化。

在标准开源基准测试中，Phi-3 mini与phi-2、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B、Llama-3-instruct8B和GPT-3.5进行了对比，所有结果均通过相同的评估流程得出，确保了测试的公正性。

尽管Phi-3 mini在语言理解和推理能力上达到了大型模型的水平，但微软指出，由于模型规模限制，它在存储“事实知识”方面存在局限，这一点在TriviaQA任务上的表现尤为明显。然而，研究人员认为，通过搜索引擎增强等方法，这类问题是可以得到缓解的。