我要投稿

Bilibili发布Index-1.9B大模型：没错，就是那个二次元B站

发布日期：2024-06-14 04:44:41 浏览次数： 4857

作者：猜想笔记

微信搜一搜，关注“猜想笔记”

1. **模型简介**：

- Index-1.9B系列是轻量级的语言模型。

- 包含`Index-1.9B base`、`Index-1.9B pure`、`Index-1.9B chat`和`Index-1.9B character`等模型。

- 模型已在HuggingFace和ModelScope上开源。

2. **预训练**：

- 模型在2.8T的数据上训练，涵盖中英文等多种语言。

- 数据经过清洗，包括避免偏置和去重。

- 使用SentencePiece训练BPE Tokenizer，特别针对中文进行了优化。

3. **模型架构**：

- 与主流的Decoder-Only Transformer模型一致，进行了一些调整，如更深的模型层数（36层）和Norm-Head机制。

4. **训练过程**：

- 使用AdamW优化器，两阶段训练策略（Stable和Decay阶段）。

- 训练基建使用了自研训练框架和华为昇腾910B卡。

5. **评测**：

- 使用OpenCompass框架进行评测，包括综合性选择题、理解和推理、数学和代码评测。

6. **讨论和实验**：

- 探讨了模型结构、学习率、预训练中是否加入指令等因素对模型性能的影响。

- 进行了消融实验，分析了不同组件对模型性能的贡献。

7. **对齐**：

- 通过SFT（Supervised Fine-Tuning）和DPO（Direct Preference Optimization）进一步优化模型，以符合人类偏好。

8. **角色扮演**：

- 利用RAG（Retrieval-Augmented Generation）技术，实现few-shot角色扮演定制。

9. **局限性**：

- 尽管采取了合规性检测，但模型可能存在未预料到的问题，使用时需注意潜在风险。

以上由Kimi总结，0 shot。原文档字有点小，凑合看吧。在公众号后台回复“B站”获取原文档。

//

END.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-05

OpenCSG 正式发布 OpenClaw × AgenticHub 企业级 OPC 平台

2026-02-05

苹果 Xcode 终于引入 AI，「Agentic Coding」攻入「果系」开发者大本营

2026-02-05

Claude Code vs. OpenAI Codex为什么更慢的模型，反而更快把事情做完

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部