贾扬清对Llama 3.1的一些看法

发布日期：2024-11-04 06:59:07 浏览次数： 2409

作者：aigcrepo

微信搜一搜，关注“aigcrepo”

1：让人惊讶的是所有的供应商都提供对该模型的支持，开源让软件和模型共同开发变得非常容易。

2：目前Llama 3.1 405B是一个很难盈利的模型，要半台或一台机器才能运行，成本很高速度也不快，大部分供应商只有做到30 token/s才能保本，而70B的模型能做到150 token/s。

3：对于供应商来说还是能够收支平衡的，首先要做好量化同时控制好负载，但利润率肯定做不到80%（传统SaaS能做到）

4：量化是优化的标准解决方案，忘记FP16. Int8/FP8是大势所趋。

5：量化要非常小心，单一的scale量化将不复存在，未来需要channel wise / group量化方案。

6：他预测405B的采用会受到速度和价格的限制。但在未来一年左右的时间里，效率至少会提高4倍。

7：他很期待测试 Mistral Large 123B，不过该模型主要用于学术研究。

8：small model FTW，在垂直应用中，70B的模型足够了，甚至8B模型做好微调也很好。

9：llama 3.1鼓励进行模型微调。

10：vLLM是非常优秀的推理引擎。

11：Lepton AI是一个API大模型平台，速度、价格、并发性和成本需要综合考虑。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

2026-06-29

WeKnora详解（一）：腾讯开源的 LLM 知识框架，5 分钟跑通你的第一个问答机器人

2026-06-29

腾讯WeKnora开源详解（四）：企业治理与开发者工具

2026-06-29

DeepSeek 再蒸新模型：这次选的是 Qwen3 和 Gemma4！Llama 这次上不了桌

2026-06-28

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

2026-06-27

腾讯混元发布 PhoneBuddy：4B 开源手机 Agent，在 AndroidWorld 上超越 Gemini3.1 Pro

2026-06-27

本地部署 Gemma 4 26B QAT 实践记录

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw