微信扫码
添加专属顾问
我要投稿
分享大纲
Phi-1:Phi系列第一个模型,拥有13亿参数,在Python编程基准测试中达到同期SLMs中的最先进性能。
Phi-1.5:同样拥有13亿参数,专注于常识推理和语言理解,性能与比它大5倍的模型相当。
Phi-2:拥有27亿参数,展现出卓越的推理和语言理解能力,在少于130亿参数的基础语言模型中表现最佳。在复杂基准测试中,Phi-2与比它大25倍的模型相匹配或更优。
训练数据质量:对模型性能至关重要,Phi-2专注于“教科书级高质量”数据,包括合成数据集,模型常识推理和一般知识。
可伸缩知识转移:从拥有13 亿参数模型 Phi-1.5 开始,将其知识嵌入到 27 亿参数 Phi-2 中。这种规模化的知识转移不仅加速了训练收敛,而且显着提高了 Phi-2 基准分数。
Phi-2基于Transformer模型,使用了1.4T的token,使用高质量的“教科书质量”数据,以及合成数据集。
训练使用96个A100 GPU,耗时14天。
作为基础模型,无RLHF进行对齐,也没有指令微调。
在多个学术基准测试中(包括BBH、常识推理、语言理解、数学和编程等),Phi-2的性能超过了7B和13B参数的Mistral和Llama-2模型。
在多步推理任务(即编程和数学)上,Phi-2的性能甚至超过了比它大25倍的Llama-2-70B模型。
尽管模型大小较小,但Phi-2与Google Gemini Nano 2模型性能相当或更优。
Phi-2在安全性和偏见方面的行为优于经过对齐的现有开源模型,这归功于定制的数据策划技术。
分享的主要内容
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28