微信扫码
添加专属顾问
我要投稿
DeepSeek-OCR + LangChain 1.0 打造的多模态数据分析Agent,轻松实现复杂文档解析与智能报告生成。 核心内容: 1. 三大核心功能:高精度文档解析、超长文本压缩、动态可视化报表生成 2. 五大应用场景:金融投研、企业经营、政务审计、科研论文、合同合规 3. 技术突破:vLLM加速+智能切分+结构化存储解决多模态分析难题
输入:图表图片/ PDF多模态文件
↓
【结构检测】识别坐标轴、图例、标题位置
↓
【OCR提取】读取文字:轴标签、刻度值、数据标签
↓
【图形识别】检测柱子、折线、点的位置和大小
↓
【数据计算】根据像素位置和坐标刻度反推数值
↓
【重新绘制】用提取的数据重新生成图表┌─────────────────────────────────────────────────┐
│ 输入:PDF文档 + 用户问题 │
│ "分析2024年财务报告,重点关注收入和利润" │
└──────────────────┬──────────────────────────────┘
↓
【第1步:文档识别】
DeepSeek-OCR API
↓
输出:Markdown文本(10万字符)
↓
【第2步:智能切片】
按标题分割为30个块
↓
【第3步:并发结构化提取】
提取:摘要 + 表格 + 关键点
耗时:(并发)
↓
【第4步:知识库构建】
压缩为紧凑的上下文(2万字符)
↓
【第5步:LLM生成报告】
输出:HTML + Title + Summary
↓
【第6步:保存展示】
浏览器打开查看交互式报告
↓
┌──────────────────┴──────────────────────────────┐
│ 输出:交互式HTML报告 + 文字分析摘要 │
│ - 7+ 个可视化图表(ECharts) │
│ - 3-5条核心洞察要点 │
│ - 支持交互、导出、分享 │
└─────────────────────────────────────────────────┘DataAnalysis/ # 项目根目录
├── 📁 backend/ # 后端服务层
│ ├── Data_analysis/
│ │ ├── DeepSeek-OCR-vllm/ # OCR服务
│ │ │ ├── backend_integration_api.py # 🔥 主服务入口
│ │ │ ├── simple_ocr_client.py # OCR推理服务
│ │ │ ├── config.py # OCR配置
│ │ │ └── deepseek_ocr.py # DeepSeek-VL模型封装
│ │ ├── backwark/ # 数据分析核心
│ │ │ ├── Information_structuring.py # 信息结构化
│ │ │ ├── visualizer.py # 可视化生成器
│ │ │ └── pdf_exporter.py # PDF导出
│ │ └── mock_visualizer.py # 测试用模拟器
│ └── 10华夏收入混合型证券投资基金2024年年度报告.pdf # 示例文档
│
└── /tmp/ocr_results/ # 临时结果目录
├── status_*.json # 任务状态
├── *_analyzed.json # 结构化结果
└── answer_*.html # 可视化报告# 创建新的虚拟环境
conda create -n deepseek_ocr python=3.11 -y
# 激活环境
conda activate deepseek_ocrcd backend/DeepSeek-OCR-vllm
pip install -r requirements.txt# DeepSeek-OCR 配置
DEEPSEEK_MODEL_PATH=/home/data/nongwa/workspace/model/OCR/DeepSeek-OCR
DEEPSEEK_OCR_URL=http://192.168.110.131:8707/ocr
DEEPSEEK_OCR_HOST=0.0.0.0
DEEPSEEK_OCR_PORT=8707
# 数据分析配置
DATA_ANALYSIS_BASE_SIZE=1024
DATA_ANALYSIS_IMAGE_SIZE=640
DATA_ANALYSIS_CROP_MODE=true
DATA_ANALYSIS_PROMPT="<image>\n<|grounding|>Convert the document to markdown."
# 信息结构化配置
QWEN_TOKENIZER_PATH=/home/data/nongwa/workspace/Data_analysis/Qwen-tokenizer
ANALYSIS_CHUNK_SIZE=1500
ANALYSIS_MAX_WORKERS=10
ANALYSIS_API_KEY=sk-xxx
ANALYSIS_API_BASE=https://dashscope.aliyuncs.com/compatible-mode/v1
ANALYSIS_MODEL_NAME=qwen3-max
# 可视化配置
VISUALIZER_API_KEY=sk-xxx
VISUALIZER_API_BASE=https://dashscope.aliyuncs.com/compatible-mode/v1
VISUALIZER_MODEL_NAME=qwen3-max
# API服务配置
API_HOST=0.0.0.0
API_PORT=8708
API_DEBUG=false
API_RELOAD=false
# 文件存储配置
UPLOAD_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_uploads
RESULTS_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_results
TEMP_DIR=/home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/output/ocr_temp
# 文件处理限制
MAX_FILE_SIZE_MB=100
SUPPORTED_EXTENSIONS=.jpg,.jpeg,.png,.pdf,.txt,.md
# 并发和性能配置
MAX_CONCURRENT_REQUESTS=5
REQUEST_TIMEOUT=300
CLEANUP_INTERVAL_HOURS=24
# 开发环境配置
ENVIRONMENT=development
LOG_LEVEL=info# 确保在 deepseek_ocr 虚拟环境中
conda activate deepseek_ocr
# 进入项目目录
cd /home/MuyuWorkSpace/03_DataAnalysis/backend/Data_analysis/DeepSeek-OCR-vllm
# 启动主服务
python backend_integration_api.py# 进入前端目录
cd ./frontend
# 安装依赖(首次运行需要,耗时约2-5分钟)
npm install
# 启动前端服务
npm run dev53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-15
万字拆解UI-TARS 2.0,看懂豆包手机背后的核心技术
2025-12-14
秒杀传统 TTS?!Gemini 原生中文 TTS 体验 + 提示词模板
2025-12-14
别被“多模态”骗了:用一本200页的教材,我测出了GPT-5.2和Gemini的物种代差
2025-12-11
Qwen3-Omni新升级:声形意合,令出智随!
2025-12-11
首发实测智谱 GLM-TTS:3秒克隆我的声音,连「哎等等这bug怎么回事」都学会了
2025-12-11
硅基流动上线智谱视觉模型 GLM-4.6V
2025-12-11
GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成
2025-12-11
Qwen3-TTS全面升级:声情并茂,语通八方
2025-09-19
2025-11-10
2025-12-06
2025-10-22
2025-10-31
2025-09-25
2025-09-17
2025-12-07
2025-11-03
2025-11-19
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05