我要投稿

AI应用：飞轮消逝，重新思考数据优势

发布日期：2024-06-11 10:29:50 浏览次数： 3066

作者：Startup Research

微信搜一搜，关注“Startup Research”

前言/目录

部分观点不算新，只是感觉最近雕花越来越多，所以重新回顾和整理了更底层的问题。可以选择感兴趣的部分阅读

01. 数据的矛盾

02. 数据飞轮：互联网 vs GenAI

03. AI产品数据优势

04. 智能的意义

05. C端数据准备期

1. 数据的矛盾

前段时间听而且回顾了几遍Dwarkesh Patel和John Schulman访谈。John Schulman不愧为RL领域的大神，对模型Pre-training和Post-training的见解都很有启发，也促使我重新思考数据和AI应用之间的关系。无论你是工程师，研究人员、产品经理还是投资人，从接触AI/ML的第一天开始，数据的重要性就被反复提及

研发层面解读，数据的作用非常清晰：数据是能源，算法是转换器。如果你是Scaling Law的拥护者，最终能涌现多少智能，取决于：第一，可用数据有多少；第二，算法将可用数据转换成智能的效率有多高。虽然Transformer并不算一个高效算法，但感谢玄学的力量，通过不断堆柴火（数据），智能还是一定程度涌现了出来

放到应用层面解读，数据的作用不像研发阶段一样显而易见。特别将“AI应用”这个定义放宽一点，带入到互联网的AI/ML和生成式AI，会发现数据在“AI应用”中的作用甚至有些矛盾，最简单也是最重要一个问题：为什么互联网的AI/ML有数据飞轮效应，但当下的AI产品没有？

2. 数据飞轮：互联网 vs GenAI

我认为有两个角度可以思考这个问题：第一是构建逻辑；第二是数据规模与质量之争

互联网产品的生产，应用逻辑是第一生产要素，即整个产品的运作方式以及技术架构选择等，而数据只能排到第二或更后。但Generative AI或其他ML-driven的产品（如SaaS的Gong.io和Cresta AI等），数据是第一生产要素，应用逻辑反而排到第二或更后

用短视频的例子来理解应用逻辑：抖音首先需要让用户使用工具（摄像头+模版）创造出丰富多元的内容，才能用推荐算法分发消费。这里应用逻辑非常清晰，内容是体验基础，推荐是体验放大器。因此只要竞争对手能通过某种方式起量，即使推荐算法并没有抖音这么优秀，仍能得到不错的结果

因此可以看到，拥有极高用户量的微信 (视频号,腾讯广告YoY 20%) 和Facebook/Instagram (Reel, 23年收入已达$10B+) 会成为字节在中美最大的对手，而非是独立产品的腾讯微视和Lasso（Facebook 18年发布）

回到数据讨论，为什么短视频可以建立数据飞轮：第一，数据反馈和体验提升/产品表现直接挂钩，即更多的反馈 = 更个性化的视频推荐；第二，因为行为数据足够客观（观看时长、点赞、评论…），数据反馈会更连续而非离散，反馈鲁棒性强

这两点为数据飞轮构建了基础。由于数据反馈和产品体验直接挂钩，单个用户的反馈也能能放大产品体验；由于数据反馈足够客观，可以将其用到所有用户，带来的体验增量以及结果和单个用户相比也不会有太大偏差

在这一条件下，只要能提前建立正确的客观反馈指标，并且能扩大反馈规模，数据飞轮就能成功的滚起来。换一个说法，如果每次数据反馈都是有效且有客观相似性，要做的就是扩大规模

AI没有数据飞轮的原因：第一，体验提升不和数据反馈直接挂钩，LLM是Stateless的，模型参数不随用户使用和偏好而调整，只能离线重做Pretrain或对齐；第二，模型生成效果到达普通用户无法识别差异的拐点后，数据反馈有主观性，只放大规模不提升质量带来的体验增量边际递减。结果就是产品很容易达到60-70分，很难达到90分

以Midjourney为例，普通用户很容易辨别出下图V3、V4、V5哪个好，但到V5和V6可能就各有所爱了。其中主观性的凸显，不是简单?或者?标注能说清楚。等到V7和V8输出图片差异微乎其微时，规模化数据反馈没有任何意义

3. AI产品数据优势

LLMOS/Agent概念的技术进展有限，AI-Native就是模型即产品。如果说互联网产品是基于规模滚出飞轮，那模型产品则需要依靠专家来定义和生产优质数据

定义优质数据就是在定义需求，需求在模型产品里的另一层含义是外部测试集，只有团队足够专业，才能准确地定义测试集，进而才能生产出足够符合下游需求的精确数据，而精确数据则是创造超平均体验的源泉。这套逻辑和模型打榜并没有区别，只是把MMLU和mageNet变成了同理心、听感、审美可控等要素，三个对应要素对应产品案例：

PI首先定义了「倾听 → 回复/拓展 → 反问」回复模式，结合数百位心理医生以及教师的数据贡献，成就了陪伴领域的超然体验
Suno创始人Schulman和Camacho长期玩乐队，对定义音乐风格、结构、可听性有极深理解，加上基本全员玩音乐的团队（甚至投资人都有玩音乐），创造了听感最好的AI音乐产品
Dall-E 3的升级依赖于更精准和全面Image-text caption pair驱动，有趣的是这里专家是Caption模型

与模型打榜不同的是Goodhart’s Law或许不会在此起作用，定义和生产最终转换成用户体验或增长

作者注

Goodhart’s Law是英国统计学家Charles Goodhart提出的一条经验法则，具体表述为：当一个衡量指标被用作控制目标时，它就会失去 (部分) 作为衡量工具的有效性

此外，随着Pretrain模型获取变得更容易以及模型代际升级速度变慢，会有更多计算资源和智力资源参与到AI应用的需求定义和数据生产（以及相应的Post-training过程）。这两项生产要素也会成为应用在模型代际间的优势窗口，如果某个高频应用能在每一代际都形成优势窗口，品牌优势/用户习惯的护城河也许会就此形成

4. 智能的意义

沿着数据驱动的角度思考商业问题，如果普通用户已经无法辨别生成内容的好坏了，那继续提升效果意义是什么？

对Kill-time产品：把AI生成内容从60分提到90分是为了和90分的互联网产品抢现有用户的时长，同时服务被互联网产品忽视的群体。用户时间有限，只会消费分泌多巴胺最多的内容，不是长视频不好看，只是短视频的反馈会更及时。在多巴胺文化里，只有更上头，没有更下头，这一叙事下最成功的产品是NSFW的AI陪伴，补充了下图Relationship-Dopamine Culture部分

对Save-time产品：可以参考五源袁野的AI观察和Chris Paik The End of Software的观点。更智能的意义是帮助Top 1-10%的专家工作，或部分自动化，捕获更的多智能份额。这对社会的经济意义很大，但很不一定有商业意义，因为自动化部分的价值很难计算。如果真能算出来，那离“按价值收费”的个性化定价模式也不远了，对per seat定价的软件也许会是灾难

from 五源资本：

在AI时代，用户的人均使用时长进一步增长的空间有限，而智能的提升潜力巨大。未来能拥有更多智能份额的公司，更有机会在基础设施持续完善、算力成本持续下降、模型能力持续提升的趋势中持续受益

5. C端数据准备期

本文的分析框架，即「模型产品体验 = 清晰需求定义 x 数据质量」，也解释了为什么B端，或者特别是针对Enterprise（理解成大企业）的应用能先起来：第一，严密组织的需求定义比个人组成群体的需求定义更明确，因为最小需求颗粒度从个人消费者上升到企业；第二，Enterprise在数据质量的积累远高于消费端，且企业内部有大量下游专家，生产额外数据的需求小

PS：SMB与落后地区会和C端更像，对专家定义和生产数据还是有依赖，而且公司确实能因此打造优势窗口。在我最近聊到的创业者中，有不少通过数据优势优化模型做到千万美元营收

从B端的角度看C端，有什么启示 —— 定义需求的结构性问题难以解决，但C端也许可以学习B端积累数据，微软的Recall有一定启发性。包括我在内很多从业者第一时间将Recall与Rewind联系起来。个人体验而言，Rewind十分鸡肋，我当时得出结论：“没有更精确的Decoding，更精确Encoding就没有意义。”后续Rewind转型做Limitless硬件让我坚信这一结论

回头细想，Encode了海量的Semantic Index，还是能筛选出不少高质量数据，只用来做检索这一Decode场景是不是太可惜了？我认为Rewind不是不想，而是创业公司精力有限，也没有生态去定义多样的需求，但是微软的运营能力和开发者生态可以做到。或许现在是一个等待AI硬件普及，等待消费者高质量数据积累的时期，C端应用还有一段路要走