我要投稿

AI-Native生成代码检测思路与保障方法

发布日期：2025-11-20 16:11:01 浏览次数： 1526

作者：群核科技质量技术

微信搜一搜，关注“群核科技质量技术”

一、背景

随着生成式AI的快速发展，AI产品已经从单一的文本生成、图片生成、视频生成，逐步演化出一种全新的设计范式——AI-Native(原生AI)产品。

这类AI-Native产品的背后，并非依赖单一模型或在传统架构上附加智能模块，而是由一套更复杂、协同的体系构成：包括多个底层模型(负责不同模态和任务)、MCP(Model Control Platform)工具等外部能力接口(支持调用API、数据库与知识库)以及一整套工程化方法(提示设计、上下文编排、依赖管理、缓存与监控)共同组成。

通过大语言模型(LLM)、智能体(Agent)及多模态交互机制，实现了人机协作方式的重构，使得产品能够自主理解用户意图、动态生成内容与界面、并在交互中持续学习与优化。

二、VoxDeck介绍

以我们的产品VoxDeck(官网：https://www.voxdeck.ai)为例，它就是一个典型的AI-Native产品。

VoxDeck允许用户通过自然语言描述或上传资料的方式直接与系统交互，快速生成风格统一、结构完整、可编辑的专业演示文稿。其用户界面围绕语义交互构建，而非传统的功能菜单操作；系统具备持续学习能力，能够根据用户反馈动态优化生成内容与风格，从而实现高效、智能的创作体验。

在这一过程中，VoxDeck不仅扮演了创作工具的角色，更像是一位能够理解团队意图的智能伙伴。然而，这种“直接生成内容”的模式虽然极大提升了生产效率与产品价值，也带来了新的挑战——AI生成往往伴随“幻觉”，生成结果在结构完整性、依赖管理及质量保障等方面可能存在不确定性，进而影响用户体验与信任度。这类问题往往难以通过传统测试手段完全覆盖，因此亟需构建面向AI生成的新型检测与质量保障体系，以确保生成内容的可靠性与可用性。

三、问题现状与示例

以下是我们日常分析过程中遇到的一些典型案例。总体来看，AI生成的结果在风格统一性和内容完整性等方面都能满足预期，生成效果准确且稳定。

下面展示的是VoxDeck生成时的稳定结果示例：

不过，也有一部分情况下，AI会因为“幻觉”或逻辑偏差，生成结果出现结构缺失、依赖遗漏、样式错乱等问题，最终会影响演示文稿的可用性和呈现效果。

以下展示了VoxDeck在生成异常时的结果示例：

经过对这些异常生成结果的分析，我们汇总了一些AI自动生成代码中存在的明显问题，如：

问题一：缺少<html>、<head>、<body>等基本结构

问题二：HTML代码重复、<thinking>等无关内容被写进代码

问题三：使用示例链接(example.com)、依赖第三方库(如使用了 ECharts 方法但未导入)

问题四：HTML生成不完整

当然，除了上述截图展示的问题，实际出现的异常更多，如：

页面内容缺失或样式错乱；
图片资源失效(404 或加载不完整)；
iframe滥用(嵌套第三方站点，带来安全与隐私风险)；
语言不统一(如俄语中夹杂英语，英语中偶尔出现中文)；
输出结果差异过大，难以建立稳定基线。

这些种种问题再一次表明，AI生成的代码并不完全可信，存在不稳定性和不可控性。

四、检测与保障方法

根据对以上问题的分析，我们发现部分场景可通过约束输出或优化底层生成Prompt解决。另一些则需借助工程化手段去解决。但伴随着模型不断升级和切换，单纯靠人力肯定是无法覆盖更多的多场景与多模型行为结果的。

所以我们除了日常功能测试覆盖，也考虑通过对生成的样本方案进行问题回溯与抽样检测，并结合多维度异常分析与AI辅助质检，构建一套可量化、可回溯的AI-Native产品质量保障体系。

4.1 数据采样优先级

在数据采集上，考虑到我们内部测试时产生的方案数量有限，所以为了尽可能发现问题，我们优先采集检测平台在真实使用场景下生成的、经过匿名化处理的方案样本，而非测试账号的测试产物或用固定Prompt去生成的方案。

采样频率结合发布时间点去采样，比如每周二全量发布完成之后间隔1-2小时执行采样，这样能更快的发现发布是否存在问题。

4.2 定义异常检测维度

基于对历史问题的分析和AI生成代码的特性，我们定义了五个可工程化的核心检测维度：

维度一：HTML结构与内容完整性

检查<html>、<head>、<body>等基础结构是否缺失或嵌套错误，是否出现定义外的结构；
识别孤立/未闭合标签与乱码、异常符号。

维度二：资源引用与可用性

图片资源：逐一验证<img>的src，检查状态码与文件大小；
CSS/JS链接：检查链接是否可访问，是否存在空文件；
去重统计：同域/同资源重复计数。

维度三：文本语言一致性与可读性

页面与段落语言统一性；
检测多语言混杂比例。

维度四：内容加载完整性

判断主要DOM节点是否为空或异常过短。

维度五：品牌名合规

品牌词典匹配，识别误拼写、大小写不统一。

值得注意的是，每个维度都存在一些特殊逻辑。比如在检测文本语言一致性时，需要考虑品牌、人名、公司/组织对整体语言一致性的影响；在检测验证URL有效性时，我们也添加了URL白名单，剔除部分URL的检测；还有根据历史方案检测结果，在定义需要检查的HTML标签的同时，我们也定义了一些不应该出现的标签等。

4.3 AI 辅助质检

以上的检测维度主要基于已知问题设计，且能通过工程化手段实现。但工程化手段只能覆盖部分已知的问题，并不能对所有场景做到全面覆盖。一方面，工程化更适合规则明确、可量化的问题；另一方面，面对复杂多样且难以预定义的问题，工程化往往力不从心。

因此，我们尝试引入AI质检，对生成结果进行分析和补充验证，以帮助发现更多潜在或未知的问题。在实际使用中，我们也依托质量效能部的工作流平台进行Prompt调优。对于那些修复成本高且投入产出比低的问题，我们优先通过优化质检Prompt来忽略问题，而无需重新部署或改动业务代码。该流程显著提升了AI质检的迭代速度与工程可操作性。

以下是我们当前使用的质检Prompt示例部分信息：