微信扫码
添加专属顾问
我要投稿
大模型技术如何革新网址安全防护?从规则到AI的进化之路,揭秘腾讯工程师的实战思考。核心内容: 1. 当前网络诈骗的严峻形势与恶意网址防护的迫切需求 2. 网址安全技术从规则驱动到AI驱动的四阶段发展历程 3. 大模型在网址安全中的优势与落地应用挑战
导读 当前网络诈骗形势持续严峻,据监管数据显示,2021 至 2023 年间,仅官方处置的恶意网址数量已达数百万级,且诈骗手段不断迭代;从仿冒公检法、网络投资诈骗,到电商钓鱼、社交平台诱导转账等,身边不乏同事、亲戚因点击恶意链接遭受财产损失的案例。在此背景下,网址安全防护技术历经多轮迭代:早期依赖专家经验制定规则,覆盖范围有限;后发展至机器学习阶段,通过模型自动化识别恶意特征,但仍需大量标注数据支撑;如今随着大模型技术突破,其强大的语义理解与上下文分析能力,为网址安全带来新的解法。
1. 背景介绍
2. 发展历程
3. 大模型时代的思考
4. 大模型后续的思考
分享嘉宾|牛亚峰 腾讯 高级工程师
编辑整理|成亮
内容校对|郭慧敏
出品社区|DataFun
01
背景介绍
近年来,网络安全领域的恶意网址威胁呈高发态势。据工信部及各省监管机构公开数据显示,2021 至 2023 年间,全国累计处置的恶意网址数量已达数百万甚至上千万级别,涵盖钓鱼网站、诈骗链接、恶意下载站点等多种类型,且黑灰产借助技术迭代不断翻新伪装手段,因背后存在高额非法收益,相关威胁始终难以彻底根除。
这一问题已切实影响到普通用户的财产安全,在此背景下,如何在用户访问网址的关键环节实时提供精准安全提示,构建高效的网址安全防护体系,成为保障用户上网安全、遏制网络诈骗的重要需求,开展相关技术探索与落地工作具备极强的现实必要性。
02
发展历程
早期,网址安全依赖专家经验和规则策略,如同军队发展初期的轻步兵,仅靠人工经验判断,效率低且覆盖有限。随后进入 “摩托化” 阶段,借助数理统计和机器学习技术,检测能力有了初步提升,类似军队实现摩托化后机动性和防御性都在增强。接着迈入 “机械化” 阶段,自然语言处理、计算机视觉、多模态模型和图神经网络等技术的应用,让检测更具系统性,如同军队机械化带来的火力与防护升级。如今,网址安全正朝着 “信息化 + 智能化” 方向发展,大语言模型驱动的体系化建设成为核心,就像军队信息化、智能化转型后,实现了全域感知与精准协同,全方位提升了网址安全的检测精度、响应速度与防护广度,为用户构建起更可靠的上网安全屏障。
03
大模型时代的思考
在网址安全领域,大模型展现出显著优势:它擅长多源异构数据挖掘,能精准捕捉复杂风险模式;具备少样本甚至零样本学习能力,可快速适配新型网络风险;还拥有强大的智能交互能力,能实现智能问答辅助与自动报告生成。然而,大模型也存在明显不足:技术门槛高、资源投入大,且存在幻觉问题,输出结果不可控。
从本质上看,大模型是内容模型的延伸,虽对赌博、色情等标准化恶意类型学习能力很强,但是对于欺诈等变化极快的恶意模式适配工作量较大。此外大模型的应用落地成本高昂也是一个不能忽视的因素,因此需要控制模型大小和检测量。
基于此,在网址安全实践中,可聚焦大模型辅助样本标注(降低标注成本,提升小模型更新频次)、辅助疑难样本召回(让小模型难以解决的样本由大模型处理)、增强网址防误报(增强网址防误报能力,提升检出精确率和召回率)等场景,以实现大模型在网址安全领域的落地应用。
1. 大模型辅助样本标注
在网址安全的样本标注环节,以往人工标注存在成本高、交付周期长的痛点,导致模型应对新风险的应变时间被大幅拉长。
为解决这一问题,可引入大模型辅助样本标注工作,针对标准化恶意类别,通过设计精准提示词、对大模型进行精调以及开展数据增强等手段,显著提升其标注能力。同时,需根据不同场景平衡大模型与人工标注的协作模式。实践表明,采用该方案后,标注文本准确率可达 95%,图像标注准确率达 92%,成本降低 70%,综合应用使模型准确率提升 3%、覆盖率提升 5%。从流程上看,大模型可通过 prompt 构造、模型精调等环节生成标注结果,再结合人工抽检、数据增强等步骤持续优化,充分发挥大模型在样本标注中的效率与精度优势,为网址安全模型的快速迭代和风险识别能力提升奠定坚实基础。
2. 大模型辅助疑难样本召回
在网址安全领域,对于现有模型无法解决的疑难问题,可交由大模型进行召回处置。在模型选型阶段,对千问、混元等多款大模型进行了测评,综合考量后最终采用 1B 和 2.5B 规模的模型来做决策。实践表明,大模型相较于现有检测模型,在检测性能上有 4%-5% 的增益。未来,大模型与小模型将并行应用,形成互补。具体流程上,针对现有模型未处置的部分样本,经筛选后由大模型进行召回处置,借助大模型对多源异构数据的处理能力,结合多路径召回与决策策略,利用 Qwen 等大模型对图片标注数据、大盘信源网址数据等进行分析,通过模型训练迭代优化、资源消耗评估等环节,最终实现指标收益,且在复现 case、误报数据驱动更新的机制下,还能进一步变更采样策略以最大化增益,充分发挥大模型在疑难样本召回上的优势,提升网址安全检测的整体效能。
3. 大模型增强网址防误报
在网址防误报领域,以往依赖规则策略和小模型的方式存在准确率与召回率双低的问题,还面临样本少且复杂、特征多样难判断、黑产对抗激烈等诸多难点。为解决这些问题,我们引入大模型并结合 RAG 技术构建 “大模型增强网址防误报” 方案。该方案通过动态知识库的数据清洗、标准化与 Embedding,挖掘异常规则和案例,再经 LLM 微调(如指令 COT 微调、强化学习微调),同时整合多源异构特征召回(Embedding 召回、BM25 召回等)与 LLM 推理(小样本提示、经验指令提示),实现对网址的精准判断。测评结果显示,基于 Qwen3-8B 的 RAG 方案准确率达 68.2%,拦截量级提升至约 1600,处置效率优化至~9k/h,相较旧模型(准确率 47%)有显著提升。资源消耗上,训练仅需 8 张 H20,日常预测 2 张 H20 即可支撑。应用中采用 “事前小模型为主、事中大模型依赖” 的模式,可实现小时级检出,有效解决长尾类型误判问题,为网址安全防护筑起更可靠的屏障。
04
大模型后续的思考
在大模型后续应用的思考中,一方面可探索大模型与 GraphRAG 的结合。由于网址数据存在丰富的关联关系,而传统 RAG 的语义检索仅能处理孤立文档信息,存在局限,GraphRAG 可利用网址图数据蕴含的更多语义信息,解决孤立文档处理难题,从而提升召回的准确率与覆盖率。另一方面,需探讨大模型与现有体系的作用模式,重点解决如何让大模型更好理解其他模型的检出原因,以及如何将大模型合理纳入现有检测体系,将现有策略模型与大模型更好进行适配。
总而言之,大模型短期内无法完全替代以往的规则策略和小模型,二者在网址安全领域是相辅相成的关系,需通过协同优化实现效能最大化。
分享嘉宾
INTRODUCTION
牛亚峰
腾讯
高级工程师
本科就读于新疆大学软件学院,在校期间曾获得校级十佳大学生、“高教社”杯数学建模大赛全国一等奖等。硕士就读于重庆大学计算机学院,在校期间曾获得优秀研究生、优秀毕业典范等荣誉称号。2018 年毕业后就职于腾讯,在职期间一直从事黑灰产对抗方面的工作,参与过反洗钱、支付反欺诈、电信反诈、网址反欺诈等项目,并且多次被评为腾讯优秀员工。
往期推荐
点个在看你最好看
SPRING HAS ARRIVED
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-30
麦肯锡重磅报告:关于未来的生存指南,当57%的工作被自动化,我们如何与AI结成利益共同体
2025-11-30
Token到底是个啥?看完这篇终于懂了
2025-11-29
Claude Opus 4.5 重磅登场:这哪里是小更,分明是重构大模型搞复杂活儿的底层逻辑
2025-11-29
Perplexity 团队深度解析|组织协作、AI原生产品体验与品牌美学
2025-11-29
ChatGPT 全球上线群聊功能
2025-11-28
如何规划一个「有节奏感」的AI产品路线图?
2025-11-28
用一个关键词总结Palantir AIP:面向对象编程
2025-11-28
基于大模型增强的少样本学习在用户投诉意图感知中的应用
2025-09-19
2025-10-02
2025-10-26
2025-09-16
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-11-28
2025-11-27
2025-11-27
2025-11-27
2025-11-25
2025-11-25
2025-11-25
2025-11-23