微信扫码
添加专属顾问
我要投稿
Chunkr 彻底革新文档处理流程,让复杂格式转换和智能解析变得前所未有的简单高效! 核心内容: 1. 多格式文档智能解析与高精度OCR技术 2. 专为RAG系统优化的语义分块功能 3. 灵活的云服务与本地部署两种使用方式
在构建文档问答、知识库或RAG(检索增强生成)系统时,处理PDF、PPT、Word等复杂文档的格式转换、OCR和结构化提取是一大痛点。
格式转换繁琐、OCR识别不准、结构化处理耗时,这些问题不仅拖慢开发进度,还可能影响AI应用的准确性。
由Lumina AI开发并开源的一款开源文档处理API,利用视觉语言模型(VLM)即可将复杂文档转为RAG/LLM就绪的结构化数据。
它便是 Chunkr,大家可以将其视为一个智能文档处理管道,能够理解文档布局、精确提取文本,并为 AI 应用智能分块文档。
Chunkr 核心解决了 AI 开发中的一个基本问题:使文档可被机器读取并适合 AI 使用。
GitHub 项目地址: https://github.com/lumina-ai-inc/chunkr
Chunkr 提供两种入门方式,云服务和本地部署。
方式一:云服务(最快)
访问官方网站 chunkr.ai
,创建账户并复制API密钥。
本地再安装 Python SDK
pip install chunkr-ai
Python 调用示例:
from chunkr_ai import Chunkr
# 使用您的 API 密钥进行初始化
chunkr = Chunkr(api_key="your_api_key")
# 上传文档(URL 或本地文件路径)
url = "https://chunkr-web.s3.us-east-1.amazonaws.com/landing_page/input/science.pdf"
task = chunkr.upload(url)
# 以多种格式导出结果
html = task.html(output_file="output.html")
markdown = task.markdown(output_file="output.md")
content = task.content(output_file="output.txt")
task.json(output_file="output.json")
# 清理资源
chunkr.close()
方式二:Docker 本地部署
前置要求:
第 1 步:克隆项目
git clone https://github.com/lumina-ai-inc/chunkr
cd chunkr
第 2 步:配置环境
复制示例配置文件:
# 复制环境变量文件
cp .env.example .env
# 复制 LLM 模型配置文件
cp models.example.yaml models.yaml
再编辑 models.yaml 来配置您的 LLM 提供商。这是最重要的一步——Chunkr 使用 LLM 进行智能文档处理:
models:
# OpenAI 配置示例
- id: gpt-4o
model: gpt-4o
provider_url: https://api.openai.com/v1/chat/completions
api_key: "your_openai_api_key_here"
default: true
rate-limit: 200 # 每分钟请求数 - 可选
# 备用模型(必需)
- id: gemini-2.0-flash-lite
model: gemini-2.0-flash-lite
provider_url: https://generativelanguage.googleapis.com/v1beta/openai/chat/completions
api_key: "your_google_ai_studio_api_key_here"
fallback: true
关键点:
default: true
fallback: true
rate-limit
是可选的,但建议在生产环境中使用第 3 步:启动服务
根据系统选择合适的命令:
# 对于拥有 NVIDIA GPU 的系统(推荐):
docker compose up -d
# 对于仅 CPU 的系统:
docker compose -f compose.yaml -f compose.cpu.yaml up -d
# 对于 Mac ARM 架构(M1, M2, M3 等):
docker compose -f compose.yaml -f compose.cpu.yaml -f compose.mac.yaml up -d
第 4 步:验证安装
服务运行后,验证一切是否正常工作:
http://localhost:5173
http://localhost:8000/health
查看 API 状态第 5 步:处理你的第一个文档
现在 Chunkr 已经运行,让我们使用本地 API 处理一个文档:
import requests
# 本地 API 端点
API_URL = "http://localhost:8000"
# 上传文档
with open("your-document.pdf", "rb") as f:
response = requests.post(
f"{API_URL}/api/v1/document/upload",
files={"file": f},
headers={"Authorization": "Bearer your-api-key"}
)
task_id = response.json()["task_id"]
# 检查状态
status_response = requests.get(
f"{API_URL}/api/v1/task/{task_id}",
headers={"Authorization": "Bearer your-api-key"}
)
print(status_response.json())
第 6 步:管理服务
完成后,也可以停止服务:
# 对于 GPU 部署:
docker compose down
# 对于仅 CPU 部署:
docker compose -f compose.yaml -f compose.cpu.yaml down
# 对于 Mac ARM 架构:
docker compose -f compose.yaml -f compose.cpu.yaml -f compose.mac.yaml down
Chunkr以其强大的文档处理能力,将PDF、PPTX、DOCX、Excel和图像转为RAG/LLM-ready的结构化数据,支持OCR、语义分块和多格式输出。
在 GitHub 已经收获了 2.6K Star,很受用户的青睐和使用。
相比传统的 Docling、olmOCR 这种单一文档解析工具,Chunkr 集 OCR、文档解析、分块、格式化于一体,非常适合直接做文档问答或知识库的底层能力
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-08-06
企业级智能体开发中所遇到的问题以及解决方案
2025-08-06
AI 场景内存降本 95%!一文看懂 OceanBase BQ 向量量化
2025-08-06
AI编程实战:AI要独立开发了?TRAE SOLO 后端生成能力深度实测
2025-08-06
AMD 显卡解锁 Ollama 支持:没有 N 卡也能跑大模型
2025-08-06
【重磅发布】Claude Opus 4.1等模型现已接入Refly
2025-08-06
20个进入实用阶段的AI应用场景(咨询公司篇)
2025-08-06
断网后,你的 AI 还能用吗?
2025-08-06
最佳实践|Zilliz 如何助力MiniMax的AI落地与预训练数据管理
2025-05-29
2025-05-23
2025-06-01
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-06-19
2025-06-13
2025-05-28
2025-08-06
2025-08-06
2025-08-06
2025-08-05
2025-08-05
2025-08-05
2025-08-04
2025-08-02