微信扫码
添加专属顾问
我要投稿
艾伦人工智能研究所(AI2)联合多个顶尖学术机构发布了史上首个100%开源的大模型“OLMo”!它的英文全称就叫Open Language Model。
• 完整的训练数据,包括生成训练数据的代码
• 完整的训练和评估代码
• 中间模型检查点,每个基础模型有500多个检查点,来自训练过程中每1000个步骤
• 训练日志
| Size | Training Tokens | Training Config | Layers | Hidden Size | Attention Heads |
| 1B | 2T | configs/official/OLMo-1B.yaml | 16 | 2048 | 16 |
| 7B | 3T | configs/official/OLMo-7B.yaml | 32 | 4096 | 32 |
| 65B* | 80 | 8192 | 64 |
其中65B的模型还在训练中,目前开源的最大模型是OLMo 7B
Dolma主要由两部分组成:
• Dolma Dateset:一个包含3万亿tokens的数据集,该数据集包含网页内容、学术出版物、代码、书籍、百科全书等,该数据大小约5.4TB。
• Dolma Toolkit:一个用于整理语言建模数据集的高性能工具包
| 来源 | 类型 | 大小(GB) | 文档数量(百万) | Llama tokens(十亿) |
| Common Crawl | 网页 | 9,022 | 3,370 | 2,281 |
| The Stack | 代码 | 1,043 | 210 | 411 |
| C4 | 网页 | 790 | 364 | 198 |
| 社媒 | 339 | 377 | 89 | |
| PeS2o | 学术 | 268 | 38.8 | 70 |
| Project Gutenberg | 书籍 | 20.4 | 0.056 | 6.0 |
| Wikipedia, Wikibooks | 百科 | 16.2 | 6.2 | 4.3 |
| 总计 | 11,519 | 4,367 | 3,059 |
• 高性能:由于内置并行性,可以同时处理数十亿个文档。
• 可移植性:适用于单机、集群或云环境。
• 快速去重:使用 Rust Bloom 过滤器快速进行文档重复数据删除。
• 可扩展:支持自定义标记器和AWS S3兼容位置。
• 内置标记器:包括通常用于管理数据集的现成标记器,
pip install dolma
git clone https://github.com/allenai/OLMo.gitpip install ai2-olmo
from transformers import pipelineolmo_pipe = pipeline("text-generation", model="allenai/OLMo-7B") # 这里可以直接指定自己的目录print(olmo_pipe("Language modeling is"))## 输出## Language modeling is a process of training a machine learning model to learn from data...
from transformers import AutoModelForCausalLM, AutoTokenizerolmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-7B", torch_dtype=torch.float16, load_in_8bit=True)
torchrun --nproc_per_node=8 scripts/train.py configs/official/OLMo-1B.yaml
torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \--data.paths=[{path_to_data}/input_ids.npy] \--data.label_mask_paths=[{path_to_data}/label_mask.npy] \--load_path={path_to_checkpoint} \--reset_trainer_stateOMLo还提供了一个用于评估开源模型的仓库OLMo-Eval,使用此管道,可以评估 t 个任务集上的 m 个模型,其中每个任务集由一个或多个单独的任务组成。使用task_sets 允许您计算多个任务的聚合指标。可选集成可用于报告。
虽然OLMo在效果上并没有那么惊艳,但是为AI研究提供了大模型宝贵的资源,有助于降低研究和开发的门槛,推动AI技术的创新和发展。
OLMo的发布,标志着AI开源模型进入了一个新的时代。随着越来越多的研究机构和企业加入到开源的行列,相信未来的AI技术将更加开放、透明和创新。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-09
Virustotal对OpenClaw恶意技能(Skills)的跟踪分析
2026-02-09
ollama v0.15.6发布:上下文限制修复、自动模型下载、Claude环境变量优化、Droid与Qwen全面更新详解
2026-02-09
【开源】港大开源“纳米级OpenClaw”:超轻量AI助手,仅4000行代码复刻OpenClaw核心战力!
2026-02-06
Qwen3-Coder-Next 上线模力方舟:仅 3B 激活参数,媲美主流大模型的 Agent 编码能力
2026-02-06
给自己搭一个 AI 搭档:OpenClaw 安装使用全记录
2026-02-06
Qwen3-TTS:2026年最强开源文本转语音模型完全指南
2026-02-06
OpenClaw 爆火之后,我们看到了这些创业信号
2026-02-05
从Clawdbot到OpenClaw:爆款本地AI Agent的产品逻辑与争议
2025-11-19
2026-01-27
2025-12-22
2026-01-12
2026-01-29
2025-11-17
2025-12-10
2026-01-28
2025-12-23
2026-01-06
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02