微软近日宣布推出升级版的小型语言模型——Phi-3,这款模型的迷你版Phi-3 mini仅拥有38亿参数,却能在手机上运行,且性能堪比大型模型。经过3.3万亿个token的训练,Phi-3 mini在学术基准和内部测试中展现出色表现,与Mistral 8x7B和GPT-3.5等模型相比毫不逊色。
Phi-3系列模型采用了与Llama-2相同的架构,便于开源社区进一步开发和完善。微软的Phi系列自推出以来就备受瞩目。去年,微软凭借仅用7B token的“教科书质量”数据训练出的1.3B参数模型Phi-1,在业界的性能评测中取得了良好成绩。随后,Phi-1.5和Phi-2模型的发布,进一步展示了微软在小型模型上的突破。
最新的Phi-3 mini模型在严格的网络数据和合成数据(类似Phi-2的训练方式)上进行了训练,并对模型的稳健性、安全性和对话格式进行了优化。此外,微软还提供了7B和14B参数版本的Phi-3模型,即Phi-3-small和Phi-3-medium,它们在性能上更为强大。
安全性方面,Phi-3 mini遵循微软的负责任人工智能原则,通过后训练的安全调整、红队测试、自动化测试及对多个RAI风险类别的评估,确保了模型的安全性。利用经改进的有用和无害偏好数据集及内部生成的数据集,微软对Phi-3 mini进行了全面的安全性优化。
在标准开源基准测试中,Phi-3 mini与phi-2、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B、Llama-3-instruct8B和GPT-3.5进行了对比,所有结果均通过相同的评估流程得出,确保了测试的公正性。
尽管Phi-3 mini在语言理解和推理能力上达到了大型模型的水平,但微软指出,由于模型规模限制,它在存储“事实知识”方面存在局限,这一点在TriviaQA任务上的表现尤为明显。然而,研究人员认为,通过搜索引擎增强等方法,这类问题是可以得到缓解的。