支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


程序员狂喜!DevDocs:开源AI文档神器,自动抓取+整理+喂给AI (MCP加持)

发布日期:2025-04-28 13:22:49 浏览次数: 1580 作者:YourwayAI
推荐语

DevDocs,开发者的智能文档处理利器,让AI为你整理技术文档。

核心内容:
1. DevDocs智能抓取技术文档,自动整理成结构化数据
2. 内置MCP服务器,无缝对接AI工具,实现文档即时查询
3. 开源免费,支持企业级特性,部署灵活

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 

导语:

还在为啃海量技术文档而抓狂?想不想让 AI 直接帮你从官方文档里找答案?今天,YouywayAI 要给大家介绍一个专为开发者打造的开源神器——DevDocs!它能自动抓取指定网站的技术文档,将其整理成清晰的结构化数据,并通过内置的 MCP 服务器,让你在 Cursor、Claude Desktop 等 AI 工具中直接查询!告别信息过载,让 AI 成为你最懂文档的编程搭档!

正文:

1. DevDocs:你的智能文档处理专家

简单来说,DevDocs by CyberAGI 是一个能将在线技术文档转化为 AI 可用知识库的工具。它的核心流程是:

  • • 智能抓取: 指定一个技术文档的起始 URL。
  • • 自动发现与整理: DevDocs 会像蜘蛛一样爬取相关页面(你可以控制深度),提取核心内容,去除无关元素,并构建出网站的结构。
  • • 结构化输出: 将抓取的内容整理成 Markdown 或 JSON 格式,方便阅读或用于 LLM 微调。
  • • MCP 服务: 内置 MCP 服务器

从此,AI 就能直接查询你指定的、最新的官方文档内容了!

2. 核心亮点:为什么 DevDocs 与众不同?
  • • 
    • • 深度控制: 可配置 1-5 级抓取深度。
    • • 自动链接发现: 智能发现并分类相关内容页面。
    • • 选择性抓取: 可以指定只抓取特定部分。
    • • 子 URL 检测: 自动理解和映射网站结构。
  • • ⚡ 高性能与速度:
    • • 并行处理: 同时抓取多个页面,速度飞快。
    • • 智能缓存: 避免重复抓取相同内容,节省时间和资源。
    • • 支持懒加载: 能处理现代 Web 应用中的动态加载内容。
    • • 速率限制: 尊重目标网站,避免请求过载。
  • • ? 内容处理与输出:
    • • 干净提取: 去除导航栏、广告等无关内容,只保留核心信息。
    • • 多种格式: 支持导出为 Markdown (MD) 和 JSON
    • • 结构化输出: 内容按逻辑组织,清晰易懂。
    • • MCP 服务器集成: 核心优势! 将抓取的文档直接变成 AI 可查询的 MCP 工具源。
  • • ?️ 企业级特性 (部分可能在未来或付费版): 错误恢复、完整日志、API 访问、团队管理等。
  • • ✅ 开源免费 & 可自托管: 核心功能免费使用,代码开源,可以完全部署在自己的服务器上。
3. 解决痛点:为什么你需要 DevDocs?
  • • 问题: 技术文档分散、更新快,LLM 的知识库往往滞后。开发者需要花费大量时间阅读、理解、查找信息。
  • • DevDocs 方案:
  1. 1. 指向任意技术文档 URL。
  2. 2. DevDocs 自动发现所有相关页面。
  3. 3. 提取干净、有用的内容。
  4. 4. 通过内置 MCP 服务器,让你的 AI 工具可以直接查询这些最新、最准确的文档!
  5. 5. (可选) 导出 MD/JSON 用于本地查阅或模型微调。

目标:让任何人都能快速利用最新技术构建出色的产品!

4. 快速上手 (推荐 Docker)

官方推荐使用 Docker 部署,最简单方便:

  1. 1. 准备: 确保你安装了 Docker 和 Git。
  2. 2. 克隆仓库:
    git clone https://github.com/cyberagiinc/DevDocs.git
    cd DevDocs
  3. 3. 配置环境变量:
  • • 复制 .env.template 为 .envcp .env.template .env
  • • 重要: 确保 .env 文件中的 NEXT_PUBLIC_BACKEND_URL 设置正确 (通常是 http://localhost:24125),这样前端 UI 才能连接到后端服务。
  • 4. 启动服务 (Mac/Linux):
    ./docker-start.sh
    (Windows 用户请参考官方 README 中的说明,目前可能还是实验性支持)
  • 5. 访问:
    • • 前端 UI: http://localhost:3001 (在这里输入 URL 开始抓取)
    • • 后端 API: http://localhost:24125
    • • 抓取服务 (Crawl4AI): http://localhost:11235
    • • MCP 服务器: 启动后,你可以在 UI 中找到特定文档库对应的 MCP URL (通常与 Backend API 相关)。
    5. 如何集成到 AI 工具? (以 Claude Desktop 为例)
    1. 1. 使用 DevDocs UI 抓取并生成你需要的技术文档库。
    2. 2. 在 DevDocs UI 中找到该文档库对应的 MCP 服务器 URL (例如 http://localhost:24125/mcp/{crawl_id})。
    3. claude_desktop_config.json
      )。
    4. 4. 添加一个新的 MCP 服务器配置 (需要 npx 和 mcp-proxy 或 mcp-remote):
      {
        "mcpServers":{
          "my_devdocs_library":{// 自定义名称
            "command":"npx",
            "args":["mcp-proxy","你的DevDocs_MCP_URL"]// 替换为实际 URL
            // 或者使用 mcp-remote:
            // "command": "npx",
            // "args": ["mcp-remote", "你的DevDocs_MCP_URL"]
          }
          // ... 其他 MCP 服务器 ...
      }
      }
      (对于 Cursor, Windsurf, Roo Code 等工具,请参考它们各自添加 MCP 服务器的方法,通常是输入 SSE URL)
    5. 5. 现在,你的 AI 助手就可以直接查询这个文档库了!
    6. 开源与资源
    • • GitHub 仓库 (求 Star ⭐): https://github.com/cyberagiinc/DevDocs

    总结:

    DevDocs 是一个极具创新性的开源项目,它巧妙地利用了智能爬虫和 MCP 协议,将静态的技术文档变成了动态的、可供 AI 直接查询的知识源泉。这对于需要频繁查阅大量、更新快的技术文档的开发者来说,无疑是一个巨大的福音。它不仅能节省大量研究时间,更能确保 AI 获取到的是最新、最准确的信息。如果你想让 AI 成为你更强大的编程伙伴,DevDocs 绝对值得你部署和使用!

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询