我要投稿

大数据和大模型时代的人工智能研究和应用

发布日期：2025-07-20 09:29:15 浏览次数： 2755

作者：DataFunSummit

微信搜一搜，关注“DataFunSummit”

导读窦德景教授在数据智能大会上分享了其加入复旦大学数据智能实验室的背景，探讨了大数据与人工智能的发展历程及两者关系，回顾人工智能历史及发展高潮，介绍大数据应用、生成式 AI 突破、大模型优缺点与产业应用，展望大模型未来与市场潜力，强调可信数据重要性，展现 AI 在各行业广泛应用及市场规模指数增长趋势。

主要内容包括以下几个部分：

1. 个人背景与大数据人工智能见解

2. 人工智能的发展

3. 大数据的应用

4. 生成式 AI 的突破

5. 大模型的优缺点

6. 大模型在产业中的应用

7. 大模型的未来和市场潜力

分享嘉宾｜窦德景复旦大学特聘教授、北电数智首席科学家

编辑整理｜吴

内容校对｜李瑶

出品社区｜DataFun

个人背景与大数据人工智能见解

1. 加入复旦大学数据智能实验室背景

窦德景教授作为复旦大学计算机学院特聘教授、北电数智首席科学家及清华大学电子工程系兼职教授，凭借在人工智能领域的深厚研究与丰富实践经验，创立复旦大学数据智能实验室，致力于推动大数据与人工智能的前沿研究与应用落地。

2. 大数据与人工智能发展历程及关系

发展历程：从 2010 年大数据热潮，数据量从 2009 年 0.8 泽字节到 2020 年 35 泽字节，增长 44 倍，呈指数级增长，且数据种类多样，包括关系型、文本、半结构化等数据，生成与处理速度快；到 2022 年大模型兴起，生成式 AI 如 ChatGPT 快速发展，5 天获 100 万用户，不到两个月达 1 亿用户。

两者关系：大数据是人工智能发展的基础，为 AI 模型提供海量训练数据；人工智能则通过算法和模型挖掘大数据价值，推动大数据深度应用，两者相互促进，共同发展。

02 人工智能的发展

1. 个人加入人工智能领域经历与耶鲁大学工作

窦教授曾经作为一年级博士生参加了耶鲁大学 2000 年的 Robocup 团队，负责主机和机器人之间的无线通讯，由此深入接触人工智能在机器人领域的应用，开启了在人工智能领域的探索之旅。

2. 人工智能在围棋等复杂游戏中的突破

2016 年 AlphaGo 击败围棋世界冠军李世石，因围棋游戏树复杂度高，传统暴力搜索困难，AlphaGo 的成功标志着人工智能在复杂策略游戏领域的重大突破；2017 年 AlphaGo Zero 从零开始训练，进一步展现了 AI 的自主学习能力。

3. 图灵测试与人工智能目标

图灵 1950 年提出图灵测试，“机器能智能地行为吗”，智能行为运行测试为模拟游戏，预计到 2000 年机器有 30% 机会和人聊天 5 分钟不被发现，GPT4.5 在 2025 年通过，人工智能的目标是实现像人一样的智能行为，包括知识、推理、语言理解和学习等 AI 主要组成部分。

03 大数据的应用

1. 大数据的三个主要方面

Volume（体积）：数据量从 2009 年 0.8 泽字节到 2020 年增至 35 泽字节，增长44 倍，呈指数级增长，如 Twitter 每日推文量等。

Variety（种类）：包括关系型数据、文本数据、半结构化数据、图形数据、流动数据等，需链接整合以提取知识。

Velocity（速度）：数据生成和处理速度快，如电子促销、健康监测、信用卡欺诈监测、引力波监测等场景需快速反应。

2. 百度在大数据领域的工作

百度利用动态时空大数据和互联网大数据，感知城市变化规律，基于海量用户网络行为数据和人工智能技术，动态精确细粒度刻画区域人口分布、结构和属性分布，为城市服务和政务决策提供参考。

3. 具体案例

幸福城市评比：构建城市幸福感指数框架，包含居民收入、生活品质、文体休闲水平等多维度，量化分析城市居民幸福感。

高风险小区预测：结合多模态学习和迁移学习技术，实现对城市新冠肺炎感染高风险小区的识别，定位成因并采取优化措施。

风功率预测：百度研究院和龙源合作，主办 KDD Cup 2022 “空间动态风功率预测挑战”，解决风电不确定性和波动性问题。

04 生成式 AI 的突破

1. 生成式 AI 的最新突破

2022 年底以 ChatGPT 为代表的生成式 AI 受到极大关注，其搜索趋势在四个月飙升五倍，核心是 2017 年出现的 Transformer 技术及基于此的大规模预训练技术，引入强化学习算法，如 RLHF，让模型从人类反馈中学习，提升对话质量。

2. 生成式 AI 通过上下文理解提高对话质量

早期对话机器人基于数据库或知识库查询，后发展为通过机器学习生成答复，如 2014年 Seq2Seq 模型，而生成式 AI 能理解上下文，拟人化思考和回答问题，实现多轮对话，如 ChatGPT 可生成多达 4096 个 token，约 3072 个单词。

3. 预训练模型与微调和强化学习的重要性

预训练模型如 GPT-3 利用上万亿语料完成预训练，参数量达 1750 亿，再针对对话任务用小规模标注数据微调，形成可部署应用的模型，如 GPT-3.5 针对对话场景微调，参数达 2000 亿，强化学习算法 RLHF 通过人类反馈筛选对话结果训练奖励模型，提升模型性能。

05 大模型的优缺点

1. 大模型的优势

参数数量：参数达千亿 / 万亿量级，如 GPT-3 有 1750 亿参数，GPT-4 有 1 万亿参数，大规模参数带来 “涌现” 特征，具备更强的处理复杂问题能力。

处理复杂问题：能处理自然对话生成、文本生成（摘要、扩写等）、全知识领域应用、代码项目自动生成测试、一定推理能力及生成创意内容等复杂任务。

无需标注数据：采用无监督学习，训练数据规模可达万亿条，减少数据标注成本。

2. 大模型的缺点

算力成本：训练需超强算力支持，如英伟达 A100 GPU 显卡，支持几千块最强 GPU 同时运行训练，成本高昂。

时间成本：训练过程复杂，耗时较长，如传统方法训练 AI 模型可能需要数年，而生成式 AI 在生物制药领域 21 天内识别候选药物，相比传统方法大幅缩短时间，但大模型自身训练仍需较长时间。

3. 优化模型的出现及潜力

DeepSeek 等优化模型出现，如 DeepSeek-R1 采用纯强化学习训练，无需监督微调，节省 30% 计算资源，DeepSeekMoE 混合专家模型降低计算成本，提升模型效率，这些模型在提高生产效率方面潜力巨大，如软件开发者称生成式 AI 编程助手提高工作效率约 88%。

06 大模型在产业中的应用

1. 应用案例

社保机器人：采用开源模型精调，基于企业 1680 条社保 / 公积金政策数据精调清华 ChatGLM-6B 模型，显著提升社保政策智能问答准确性，内容与企业人工标注几乎一致，输出格式统一，逻辑严密。

业务话术稽核：调用商用大模型和优化提示工程，在 700 + 话术数据集上，大模型在违规、骚扰和告警话术识别准确率大幅提升，如违规判断真实标签数 70，原有方法命中 3 个，大模型命中 61 个。

保险销售智能助手：基于开源模型实现在线销售智能助手原型，可从客户聊天记录提取信息、推荐保险类型、查询条款并对比，如为 55 岁年收入 100 万的公司创始人马龙推荐家族财富传承保险、子女教育保险等。

2. 提高生产效率和降低成本潜力

生成式 AI 在各行业应用提升效率、降低成本，如金融领域欺诈检测准确率达 98%，消费领域零售商客户转化率提高 1.5 倍，保险领域客服成本降幅达 30%。

3. 在医药代表培训中的应用

采用大模型实现虚拟医生原型，模拟各种人设医生，与医药代表一对一对话完成培训并自动评估效果，如模拟医生与医药代表关于诺和泰和度易达降糖效果的对话，提升培训效率和质量。

07 大模型的未来和市场潜力

1. 未来发展趋势

更多应用场景：将覆盖政务、先进制造、交通、医疗、传媒、教育等更多领域，如北京某委办局政策大模型、某国家级医院医疗大模型等。

更优化的模型：如 DeepSeek 通过优化算法架构，提升算力利用效率，降低训练与推理成本，未来模型将更高效、更精准。

2. 市场的指数增长潜力

生成式 AI：企业纷纷投入开发解决方案，如金山办公、阿里云等，商业应用创新大幅提升生产效率，市场规模快速增长。

Agent：AI Agent 是 10 倍于 SaaS 的超级市场，未来将在各行业发挥重要作用。

Physical AI：具身智能机器人、自动驾驶汽车等对实时推理有极高要求，带动算力需求指数级增长，如 2020 年到 2030 年全球算力规模将增加 4000 倍。

3. 优化模型在提高推理效率和减少算力需求方面的优势

DeepSeek 等优化模型通过技术创新，如 R1-Zero 纯强化学习训练、MLA 多头隐式注意力机制、PTX 算子优化等，将大模型单位算力成本降低 90% 以上，提高推理效率，减少算力需求，推动 AI 技术降本，驱动算力与芯片需求激增，使垂类模型井喷发展，城市级 AI 底座需求井喷，产业应用迎来重大战略机遇。