微信扫码
添加专属顾问
我要投稿
窦德景教授深度解析大数据与AI的共生关系,揭示从AlphaGo到ChatGPT的技术跃迁。核心内容: 1. 大数据与人工智能的协同发展历程 2. 生成式AI突破性进展与技术原理剖析 3. 大模型在各行业的落地应用与未来趋势
导读 窦德景教授在数据智能大会上分享了其加入复旦大学数据智能实验室的背景,探讨了大数据与人工智能的发展历程及两者关系,回顾人工智能历史及发展高潮,介绍大数据应用、生成式 AI 突破、大模型优缺点与产业应用,展望大模型未来与市场潜力,强调可信数据重要性,展现 AI 在各行业广泛应用及市场规模指数增长趋势。
1. 个人背景与大数据人工智能见解
2. 人工智能的发展
3. 大数据的应用
4. 生成式 AI 的突破
5. 大模型的优缺点
6. 大模型在产业中的应用
7. 大模型的未来和市场潜力
分享嘉宾|窦德景 复旦大学 特聘教授、北电数智首席科学家
编辑整理|吴
内容校对|李瑶
出品社区|DataFun
01
窦德景教授作为复旦大学计算机学院特聘教授、北电数智首席科学家及清华大学电子工程系兼职教授,凭借在人工智能领域的深厚研究与丰富实践经验,创立复旦大学数据智能实验室,致力于推动大数据与人工智能的前沿研究与应用落地。
发展历程:从 2010 年大数据热潮,数据量从 2009 年 0.8 泽字节到 2020 年 35 泽字节,增长 44 倍,呈指数级增长,且数据种类多样,包括关系型、文本、半结构化等数据,生成与处理速度快;到 2022 年大模型兴起,生成式 AI 如 ChatGPT 快速发展,5 天获 100 万用户,不到两个月达 1 亿用户。
两者关系:大数据是人工智能发展的基础,为 AI 模型提供海量训练数据;人工智能则通过算法和模型挖掘大数据价值,推动大数据深度应用,两者相互促进,共同发展。
窦教授曾经作为一年级博士生参加了耶鲁大学 2000 年的 Robocup 团队,负责主机和机器人之间的无线通讯,由此深入接触人工智能在机器人领域的应用,开启了在人工智能领域的探索之旅。
2016 年 AlphaGo 击败围棋世界冠军李世石,因围棋游戏树复杂度高,传统暴力搜索困难,AlphaGo 的成功标志着人工智能在复杂策略游戏领域的重大突破;2017 年 AlphaGo Zero 从零开始训练,进一步展现了 AI 的自主学习能力。
图灵 1950 年提出图灵测试,“机器能智能地行为吗”,智能行为运行测试为模拟游戏,预计到 2000 年机器有 30% 机会和人聊天 5 分钟不被发现,GPT4.5 在 2025 年通过,人工智能的目标是实现像人一样的智能行为,包括知识、推理、语言理解和学习等 AI 主要组成部分。
Volume(体积):数据量从 2009 年 0.8 泽字节到 2020 年增至 35 泽字节,增长44 倍,呈指数级增长,如 Twitter 每日推文量等。
Variety(种类):包括关系型数据、文本数据、半结构化数据、图形数据、流动数据等,需链接整合以提取知识。
Velocity(速度):数据生成和处理速度快,如电子促销、健康监测、信用卡欺诈监测、引力波监测等场景需快速反应。
百度利用动态时空大数据和互联网大数据,感知城市变化规律,基于海量用户网络行为数据和人工智能技术,动态精确细粒度刻画区域人口分布、结构和属性分布,为城市服务和政务决策提供参考。
幸福城市评比:构建城市幸福感指数框架,包含居民收入、生活品质、文体休闲水平等多维度,量化分析城市居民幸福感。
高风险小区预测:结合多模态学习和迁移学习技术,实现对城市新冠肺炎感染高风险小区的识别,定位成因并采取优化措施。
风功率预测:百度研究院和龙源合作,主办 KDD Cup 2022 “空间动态风功率预测挑战”,解决风电不确定性和波动性问题。
2022 年底以 ChatGPT 为代表的生成式 AI 受到极大关注,其搜索趋势在四个月飙升五倍,核心是 2017 年出现的 Transformer 技术及基于此的大规模预训练技术,引入强化学习算法,如 RLHF,让模型从人类反馈中学习,提升对话质量。
早期对话机器人基于数据库或知识库查询,后发展为通过机器学习生成答复,如 2014年 Seq2Seq 模型,而生成式 AI 能理解上下文,拟人化思考和回答问题,实现多轮对话,如 ChatGPT 可生成多达 4096 个 token,约 3072 个单词。
预训练模型如 GPT-3 利用上万亿语料完成预训练,参数量达 1750 亿,再针对对话任务用小规模标注数据微调,形成可部署应用的模型,如 GPT-3.5 针对对话场景微调,参数达 2000 亿,强化学习算法 RLHF 通过人类反馈筛选对话结果训练奖励模型,提升模型性能。
参数数量:参数达千亿 / 万亿量级,如 GPT-3 有 1750 亿参数,GPT-4 有 1 万亿参数,大规模参数带来 “涌现” 特征,具备更强的处理复杂问题能力。
处理复杂问题:能处理自然对话生成、文本生成(摘要、扩写等)、全知识领域应用、代码项目自动生成测试、一定推理能力及生成创意内容等复杂任务。
无需标注数据:采用无监督学习,训练数据规模可达万亿条,减少数据标注成本。
算力成本:训练需超强算力支持,如英伟达 A100 GPU 显卡,支持几千块最强 GPU 同时运行训练,成本高昂。
时间成本:训练过程复杂,耗时较长,如传统方法训练 AI 模型可能需要数年,而生成式 AI 在生物制药领域 21 天内识别候选药物,相比传统方法大幅缩短时间,但大模型自身训练仍需较长时间。
DeepSeek 等优化模型出现,如 DeepSeek-R1 采用纯强化学习训练,无需监督微调,节省 30% 计算资源,DeepSeekMoE 混合专家模型降低计算成本,提升模型效率,这些模型在提高生产效率方面潜力巨大,如软件开发者称生成式 AI 编程助手提高工作效率约 88%。
社保机器人:采用开源模型精调,基于企业 1680 条社保 / 公积金政策数据精调清华 ChatGLM-6B 模型,显著提升社保政策智能问答准确性,内容与企业人工标注几乎一致,输出格式统一,逻辑严密。
业务话术稽核:调用商用大模型和优化提示工程,在 700 + 话术数据集上,大模型在违规、骚扰和告警话术识别准确率大幅提升,如违规判断真实标签数 70,原有方法命中 3 个,大模型命中 61 个。
保险销售智能助手:基于开源模型实现在线销售智能助手原型,可从客户聊天记录提取信息、推荐保险类型、查询条款并对比,如为 55 岁年收入 100 万的公司创始人马龙推荐家族财富传承保险、子女教育保险等。
生成式 AI 在各行业应用提升效率、降低成本,如金融领域欺诈检测准确率达 98%,消费领域零售商客户转化率提高 1.5 倍,保险领域客服成本降幅达 30%。
采用大模型实现虚拟医生原型,模拟各种人设医生,与医药代表一对一对话完成培训并自动评估效果,如模拟医生与医药代表关于诺和泰和度易达降糖效果的对话,提升培训效率和质量。
更多应用场景:将覆盖政务、先进制造、交通、医疗、传媒、教育等更多领域,如北京某委办局政策大模型、某国家级医院医疗大模型等。
更优化的模型:如 DeepSeek 通过优化算法架构,提升算力利用效率,降低训练与推理成本,未来模型将更高效、更精准。
生成式 AI:企业纷纷投入开发解决方案,如金山办公、阿里云等,商业应用创新大幅提升生产效率,市场规模快速增长。
Agent:AI Agent 是 10 倍于 SaaS 的超级市场,未来将在各行业发挥重要作用。
Physical AI:具身智能机器人、自动驾驶汽车等对实时推理有极高要求,带动算力需求指数级增长,如 2020 年到 2030 年全球算力规模将增加 4000 倍。
DeepSeek 等优化模型通过技术创新,如 R1-Zero 纯强化学习训练、MLA 多头隐式注意力机制、PTX 算子优化等,将大模型单位算力成本降低 90% 以上,提高推理效率,减少算力需求,推动 AI 技术降本,驱动算力与芯片需求激增,使垂类模型井喷发展,城市级 AI 底座需求井喷,产业应用迎来重大战略机遇。
分享嘉宾
INTRODUCTION
窦德景
复旦大学
特聘教授、北电数智首席科学家
窦德景教授是复旦大学特聘教授和北电数智首席科学家,也是清华大学电子工程系兼职教授,国家级人才计划入选者。此前曾担任波士顿咨询合伙人,副总裁,中国区首席数据科学家,百度研究院大数据实验室和商业智能实验室的主任,和美国俄勒冈大学计算机和信息科学系正教授(终身教职)。窦教授 1996 年在清华大学电子工程系本科毕业,2004 年在耶鲁大学获得人工智能方向博士学位,2012-2013 年曾在斯坦福大学生物医学信息研究中心任客座副教授。窦教授在 2005 年建立 Advanced Integration and Mining (AIM) Lab,2018 年起担任美国 NSF 大(深度)学习中心(Center for Big Learning)的俄勒冈大学主任。窦教授的研究领域包括:人工智能,数据挖掘,数据整合,自然语言处理,和健康信息学。窦教授发表了超过 250 篇的学术论文,(在 Google Scholar 被引用超过 10000 次),很多文章发表在最有声望的会议文献和学术期刊,例如 AAAI,IJCAI,ICML,NeurIPS,ICLR,KDD,ICDM,ACL,EMNLP,CVPR,ICCV,CIKM,ISWC,AIJ,JMLR,TPAMI,MLJ,TKDE,TKDD,KAIS,JIIS 和 Nature 子刊(Sustainability)等。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-29
2025-05-23
2025-04-29
2025-05-07
2025-05-07
2025-05-07
2025-06-01
2025-04-29
2025-06-07
2025-05-20
2025-07-19
2025-07-19
2025-07-19
2025-07-19
2025-07-19
2025-07-18
2025-07-18
2025-07-18