免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

4.5K Star!文档管理AI神器Paperless-AI:自动分类打标签,语义搜索秒找文件!

发布日期:2025-11-17 17:23:14 浏览次数: 1526
作者:架构师修行之路

微信搜一搜,关注“架构师修行之路”

推荐语

AI文档管理神器Paperless-AI,让你的文件自动分类、秒速查找,彻底告别手动整理的烦恼!

核心内容:
1. 基于AI的自动化文档处理,自动打标签、分类和语义搜索
2. 支持20多种AI后端,本地部署保护隐私
3. 简单Docker部署,轻松管理家庭和公司文档

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

家里电子文档越攒越多,合同、发票、保险单、账单堆成山,每次找个文件翻半天,试过手动整理文件夹太费劲,传统搜索只能按文件名找也不够智能,直到发现了Paperless-AI这个开源项目,才知道AI真能把文档管理这件事儿做到极致

Paperless-AI是什么

它是一个基于Paperless-ngx的AI增强插件,通过OpenAI API、Ollama等AI模型自动分析文档内容并打标签、分类、识别对应方。他还内置了RAG语义搜索引擎,让你能用自然语言提问例如:"上个月电费多少钱"、"我的租房合同啥时候签的"的问题,系统会秒懂你的意思并给出精准的答案,他支持20多种AI后端,完全可以在本地部署保护隐私

开源成就

Star数 他已经收获4.5K Star,也算是文档管理领域的AI新星了
主开发语言 基于JavaScript和Python开发,前后端分离的架构
版本迭代 已经发布了58个版本,功能还在持续完善中

核心功能

自动化文档处理,监测Paperless-ngx中的新文档,AI自动分析内容后给文档起标题、打标签、分配文档类型和对应方,完全不用手动整理
多AI后端支持,兼容Ollama(Mistral、Llama、Phi-3、Gemma-2)、OpenAI、DeepSeek、OpenRouter、Perplexity、Together.ai、Gemini等20多种AI服务,用本地模型也能跑
RAG语义聊天,基于检索增强生成技术,能理解文档完整上下文而不只是关键词匹配,问"哪些文档提到我的医保"这种复杂问题也能准确回答
智能标签规则,可以定义规则限制处理哪些文档,禁用某些提示词并自动打标签,还能设置自定义输出标签做分类追踪
手动处理模式,提供Web界面手动调用AI打标签,审查敏感文档时特别有用,访问/manual就能操作

使用场景

我用它管理家里所有纸质文档的电子版,扫描件上传后AI自动识别是水电账单还是银行对账单,标签打得比我自己分类还准确

老婆问我"去年报税的那个文件在哪",以前得想半天放在哪个文件夹,现在直接在聊天界面问,系统3秒钟就把准确的文档链接给出来了

公司合同归档也用上了,几百份合同按客户、日期、金额自动分类,财务找历史合同方便太多了

# Docker部署超简单
docker run -d \
  --name paperless-ai \
  -p 3000:3000 \
  -v ./data:/app/data \
  -e PAPERLESS_URL=http://your-paperless-ngx:8000 \
  -e PAPERLESS_TOKEN=your-api-token \
  -e OPENAI_API_KEY=your-openai-key \
  clusterzx/paperless-ai

# 首次安装完成设置后记得重启容器构建RAG索引
docker restart paperless-ai

安装指南

前置要求,需要先安装Paperless-ngx作为文档管理基础,Paperless-AI作为增强插件运行

Docker部署推荐,官方提供了Docker镜像,配置好环境变量一键启动,支持健康监控和自动重启

# docker-compose.yml示例
version: '3.8'
services:
  paperless-ai:
    image: clusterzx/paperless-ai:latest
    ports:
      - "3000:3000"
    environment:
      - PAPERLESS_URL=http://paperless:8000
      - PAPERLESS_TOKEN=${PAPERLESS_TOKEN}
      - OPENAI_API_KEY=${OPENAI_KEY}
      - AI_BACKEND=ollama  # 或openai/deepseek等
    volumes:
      - ./data:/app/data
    restart: unless-stopped
本地开发模式,想自己改代码的话可以克隆仓库本地运行
# 安装依赖
npm install

# 启动开发/测试模式
npm run test

AI模型配置,可以用OpenAI的GPT系列,也能用本地Ollama跑开源模型省钱,DeepSeek R1性价比超高

首次设置注意,完成API密钥和偏好设置后必须重启容器构建RAG索引,后续更新就不需要了

Web界面访问,启动后访问 http://localhost:3000 就能看到管理界面,配置规则、查看处理日志、使用AI聊天都在这里

用Paperless-AI半年多,家里的文档管理终于有条理了,以前找个几年前的保修单要翻箱倒柜,现在问一句"XX品牌的保修卡在哪"秒出结果,而且AI打标签的准确率出乎意料的高,偶尔需要手动调整的也就10%左右,最喜欢的是它支持本地AI模型,用Ollama跑Llama完全不用担心文档隐私泄露,虽然初次设置需要折腾一下Docker和Paperless-ngx,但配好之后真的是一劳永逸,强烈推荐给所有需要管理大量文档的朋友,这套系统已经是个人文档管理的天花板了

项目图片

开源地址:https://github.com/clusterzx/paperless-ai


END


往期推荐



53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询