我要投稿

模型训练 | 完全开源大模型：OLMo

发布日期：2024-04-19 06:43:46 浏览次数： 3453

作者：大语言模型技术进展

微信搜一搜，关注“大语言模型技术进展”

艾伦人工智能研究所（AI2）联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”！它的英文全称就叫Open Language Model。

OLMo的独特之处是完全开源：

• 完整的训练数据，包括生成训练数据的代码
• 完整的训练和评估代码
• 中间模型检查点，每个基础模型有500多个检查点，来自训练过程中每1000个步骤
• 训练日志

OLMo目前开源的模型主要有三个规模

Size	Training Tokens	Training Config	Layers	Hidden Size	Attention Heads
1B	2T	configs/official/OLMo-1B.yaml	16	2048	16
7B	3T	configs/official/OLMo-7B.yaml	32	4096	32
65B*			80	8192	64

其中65B的模型还在训练中，目前开源的最大模型是OLMo 7B

Dolma简介

Dolma主要由两部分组成：

• Dolma Dateset：一个包含3万亿tokens的数据集，该数据集包含网页内容、学术出版物、代码、书籍、百科全书等，该数据大小约5.4TB。
• Dolma Toolkit：一个用于整理语言建模数据集的高性能工具包

Dolma Dateset

数据集统计结果 v1.6(发布于2024-01-31)

来源	类型	大小（GB）	文档数量（百万）	Llama tokens(十亿)
Common Crawl	网页	9,022	3,370	2,281
The Stack	代码	1,043	210	411
C4	网页	790	364	198
Reddit	社媒	339	377	89
PeS2o	学术	268	38.8	70
Project Gutenberg	书籍	20.4	0.056	6.0
Wikipedia, Wikibooks	百科	16.2	6.2	4.3
总计		11,519	4,367	3,059

Dolma Toolkit

特点

• 高性能：由于内置并行性，可以同时处理数十亿个文档。
• 可移植性：适用于单机、集群或云环境。
• 快速去重：使用 Rust Bloom 过滤器快速进行文档重复数据删除。
• 可扩展：支持自定义标记器和AWS S3兼容位置。
• 内置标记器：包括通常用于管理数据集的现成标记器，

安装

pip install dolma

OLMo

安装

git clone https://github.com/allenai/OLMo.git
pip install ai2-olmo

推理

from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))
## 输出## Language modeling is a process of training a machine learning model to learn from data...

量化

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)

训练

torchrun --nproc_per_node=8 scripts/train.py configs/official/OLMo-1B.yaml

微调

torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \--data.paths=[{path_to_data}/input_ids.npy] \--data.label_mask_paths=[{path_to_data}/label_mask.npy] \--load_path={path_to_checkpoint} \--reset_trainer_state

评估

OMLo还提供了一个用于评估开源模型的仓库OLMo-Eval，使用此管道，可以评估 t 个任务集上的 m 个模型，其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。

小结

虽然OLMo在效果上并没有那么惊艳，但是为AI研究提供了大模型宝贵的资源，有助于降低研究和开发的门槛，推动AI技术的创新和发展。

OLMo的发布，标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列，相信未来的AI技术将更加开放、透明和创新。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-09

Virustotal对OpenClaw恶意技能(Skills)的跟踪分析

2026-02-09

ollama v0.15.6发布：上下文限制修复、自动模型下载、Claude环境变量优化、Droid与Qwen全面更新详解

2026-02-09

【开源】港大开源“纳米级OpenClaw”：超轻量AI助手，仅4000行代码复刻OpenClaw核心战力！

2026-02-06

Qwen3-Coder-Next 上线模力方舟：仅 3B 激活参数，媲美主流大模型的 Agent 编码能力

2026-02-06

给自己搭一个 AI 搭档：OpenClaw 安装使用全记录

2026-02-06

Qwen3-TTS：2026年最强开源文本转语音模型完全指南

2026-02-06

OpenClaw 爆火之后，我们看到了这些创业信号

2026-02-05

从Clawdbot到OpenClaw：爆款本地AI Agent的产品逻辑与争议

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

ClawdBot 火爆全网，手把手教你如何部署，还能直接用钉钉操作！

2026-01-28

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

Clawdbot 如何实现像人一样的长期记忆？

2026-02-05

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部