免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

AI-Native生成代码检测思路与保障方法

发布日期:2025-11-20 16:11:01 浏览次数: 1526
作者:群核科技质量技术

微信搜一搜,关注“群核科技质量技术”

推荐语

AI-Native产品如何解决代码生成中的"幻觉"问题?VoxDeck实践分享为你揭秘。

核心内容:
1. AI-Native产品的架构特点与挑战
2. VoxDeck在代码生成中的典型问题案例分析
3. 构建AI生成内容的质量保障体系方法

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

一、背景

随着生成式AI的快速发展,AI产品已经从单一的文本生成、图片生成、视频生成,逐步演化出一种全新的设计范式——AI-Native(原生AI)产品

这类AI-Native产品的背后,并非依赖单一模型或在传统架构上附加智能模块,而是由一套更复杂、协同的体系构成:包括多个底层模型(负责不同模态和任务)、MCP(Model Control Platform)工具等外部能力接口(支持调用API、数据库与知识库)以及一整套工程化方法(提示设计、上下文编排、依赖管理、缓存与监控)共同组成。

通过大语言模型(LLM)、智能体(Agent)及多模态交互机制,实现了人机协作方式的重构,使得产品能够自主理解用户意图、动态生成内容与界面、并在交互中持续学习与优化。

二、VoxDeck介绍

以我们的产品VoxDeck(官网:https://www.voxdeck.ai)为例,它就是一个典型的AI-Native产品。

VoxDeck允许用户通过自然语言描述或上传资料的方式直接与系统交互,快速生成风格统一、结构完整、可编辑的专业演示文稿。其用户界面围绕语义交互构建,而非传统的功能菜单操作;系统具备持续学习能力,能够根据用户反馈动态优化生成内容与风格,从而实现高效、智能的创作体验。

在这一过程中,VoxDeck不仅扮演了创作工具的角色,更像是一位能够理解团队意图的智能伙伴。然而,这种“直接生成内容”的模式虽然极大提升了生产效率与产品价值,也带来了新的挑战——AI生成往往伴随“幻觉”,生成结果在结构完整性、依赖管理及质量保障等方面可能存在不确定性,进而影响用户体验与信任度。这类问题往往难以通过传统测试手段完全覆盖,因此亟需构建面向AI生成的新型检测与质量保障体系,以确保生成内容的可靠性与可用性。

三、问题现状与示例

以下是我们日常分析过程中遇到的一些典型案例。总体来看,AI生成的结果在风格统一性和内容完整性等方面都能满足预期,生成效果准确且稳定。

下面展示的是VoxDeck生成时的稳定结果示例:

不过,也有一部分情况下,AI会因为“幻觉”或逻辑偏差,生成结果出现结构缺失、依赖遗漏、样式错乱等问题,最终会影响演示文稿的可用性和呈现效果。

以下展示了VoxDeck在生成异常时的结果示例:


经过对这些异常生成结果的分析,我们汇总了一些AI自动生成代码中存在的明显问题,如

  • 问题一:缺少<html>、<head>、<body>等基本结构

  • 问题二:HTML代码重复、<thinking>等无关内容被写进代码
  • 问题三:使用示例链接(example.com)、依赖第三方库(如使用了 ECharts 方法但未导入)
  • 问题四:HTML生成不完整

当然,除了上述截图展示的问题,实际出现的异常更多,如

  • 页面内容缺失或样式错乱;

  • 图片资源失效(404 或加载不完整);

  • iframe滥用(嵌套第三方站点,带来安全与隐私风险);

  • 语言不统一(如俄语中夹杂英语,英语中偶尔出现中文);

  • 输出结果差异过大,难以建立稳定基线。

这些种种问题再一次表明,AI生成的代码并不完全可信,存在不稳定性和不可控性。

四、检测与保障方法

根据对以上问题的分析,我们发现部分场景可通过约束输出或优化底层生成Prompt解决。另一些则需借助工程化手段去解决。但伴随着模型不断升级和切换,单纯靠人力肯定是无法覆盖更多的多场景与多模型行为结果的。

所以我们除了日常功能测试覆盖,也考虑通过对生成的样本方案进行问题回溯与抽样检测,并结合多维度异常分析与AI辅助质检,构建一套可量化、可回溯的AI-Native产品质量保障体系

4.1 数据采样优先级

在数据采集上,考虑到我们内部测试时产生的方案数量有限,所以为了尽可能发现问题,我们优先采集检测平台在真实使用场景下生成的、经过匿名处理的方案样本,而非测试账号的测试产物或用固定Prompt去生成的方案。

采样频率结合发布时间点去采样,比如每周二全量发布完成之后间隔1-2小时执行采样,这样能更快的发现发布是否存在问题

4.2 定义异常检测维度

基于对历史问题的分析和AI生成代码的特性,我们定义了五个可工程化的核心检测维度:

维度一:HTML结构与内容完整性

  • 检查<html>、<head>、<body>等基础结构是否缺失或嵌套错误,是否出现定义外的结构;

  • 识别孤立/未闭合标签与乱码、异常符号。

维度二:资源引用与可用性

  • 图片资源:逐一验证<img>src,检查状态码与文件大小;
  • CSS/JS链接:检查链接是否可访问,是否存在空文件;
  • 去重统计:同域/同资源重复计数。

维度三:文本语言一致性与可读性

  • 页面与段落语言统一性;
  • 检测多语言混杂比例。

维度四:内容加载完整性

  • 判断主要DOM节点是否为空或异常过短。

维度五:品牌名合规

  • 品牌词典匹配,识别误拼写、大小写不统一。

值得注意的是,每个维度都存在一些特殊逻辑。比如在检测文本语言一致性时,需要考虑品牌、人名、公司/组织对整体语言一致性的影响;在检测验证URL有效性时,我们也添加了URL白名单,剔除部分URL的检测;还有根据历史方案检测结果,在定义需要检查的HTML标签的同时,我们也定义了一些不应该出现的标签等。

4.3 AI 辅助质检

以上的检测维度主要基于已知问题设计,且能通过工程化手段实现。工程化手段只能覆盖部分已知的问题,并不能对所有场景做到全面覆盖。一方面,工程化更适合规则明确、可量化的问题;另一方面,面对复杂多样且难以预定义的问题,工程化往往力不从心。

因此,我们尝试引入AI质检,对生成结果进行分析和补充验证,以帮助发现更多潜在或未知的问题。在实际使用中,我们也依托质量效能部的工作流平台进行Prompt调优。对于那些修复成本高且投入产出比低的问题,我们优先通过优化质检Prompt来忽略问题,而无需重新部署或改动业务代码。该流程显著提升了AI质检的迭代速度与工程可操作性。

以下是我们当前使用的质检Prompt示例部分信息:

4.4 指标体系与运行结果

为了更准确地确认每次执行结果是否存在问题,我们定义了以下异常指标:

  • 异常总数:衡量每日整体异常规模;

  • 异常占比:异常数 / 总生成数,用于监控质量波动;

  • 异常场景分类
  • 根据触发场景对异常进行拆解,便于识别主要影响面;
  • 问题分布:不同类型异常的占比,便于快速定位主因;

  • 高风险场景:识别是否由特定模板或功能集中触发。

为了方便对异常问题的跟进与分析,我们也构建了一个前端可视化页面,将每次检测任务的汇总数据与匿名化样本执行结果进行结构化呈现,且单独标记每次执行结果存在异常的部分并推送,帮助快速判断问题、分析问题。

以下为单次执行时,对所有执行结果的汇总示例:

以下为单次执行时,对单个样本方案执行结果示例:

需要注意的是,单纯的数据指标只能反映“存在问题”,并不能解释“为什么有问题”。因为AI也在不断变化,所以就算区分了场景了,也不代表覆盖全面。

因此,在发现数据异常后,持续分析样本方案并进行系统性总结,才是推动质量改进的关键。而且,许多问题并非一经发现就能立即解决。我们需要持续观察异常数据的趋势;若趋势平稳,则可暂缓解决;反之,则需人工介入进行干预。

五、检测后的结果与价值

5.1 效率提升

  • 回归覆盖率提升:目前单次任务可抽检30%以上样本方案数据(人工每次最多抽检几个方案,较之前效率提升超过100%)显著减少漏测与盲区;
  • 提前发现问题:高风险问题(结构缺陷、资源缺失等)的发现时间由等待用户反馈或内部发现的T+N天 → T+0天,实现上线即拦截。

5.2 质量提升

  • 线上问题率下降:HTML不完整性,依赖库资源漏引等典型问题明显减少;

  • 产品验收更科学:通过“异常占比、类型分布、趋势变化”等可量化指标,形成可追踪、可复盘的验收标准,且能持续改进。

5.3 业务价值延伸

  • 信任度提升:目前产品迭代速度比较快,有了检测后,对外可展示更稳定的交付质量,对内形成可度量的质量保障闭环;

  • 成本可控:因紧急修复导致的额外人力投入
    减少70%左右,迭代节奏更可控,资源利用率更高。

    六、总结与未来展望

    当前,我们已构建了一套VoxDeck产品质量保障体系的初步框架。然而,作为一个处于建设初期的体系,它在覆盖范围、运行环境和分类粒度都有一定局限。此外,AI质检本身也存在误差,难以完全替代人工与工程化手段,我们也需要投入大量的时间去分析总结。

    6.1 挑战与局限

    当前主要的一些挑战有:

    • 覆盖率不足:受限于样本方案数量庞大,且使用AI检测时存在成本考量,目前主要还是依赖抽样检测,暂无法实现全量覆盖。

    • 场景粒度有限:现有检测维度仍较为粗略,随着产品功能扩展与迭代,亟需更精细化的分类与量化。

    • AI质检误差:AI天生存在“幻觉”,导致质检环节可能产生误报。

    • 难以彻底修复的问题:部分生成缺陷难以完全修复,只能暂时搁置,可能导致渲染结果存在不完整性或不一致性。

    6.2 未来方向

    针对上述挑战,我们计划沿以下路径进行持续迭代,以构建一个更强大、智能的质量保障体系:

    • 数据监测升级:在日维度基础上,补充 月度/季度级别的数据统计与趋势分析,以便持续追踪和防止部分问题长期被忽略。

    • 场景检测细化:进一步区分不同生成来源与模式,如 PDF 上传生成、图片上传生成 等,并针对底层不同模型输出,建立差异化的检测规则。

    • 多模型验证探索:在成本可控的前提下,逐步尝试引入多模型交叉验证,降低误报率

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询