我要投稿

AI技术前瞻：下一个AI风口在何处？

发布日期：2024-06-24 12:44:42 浏览次数： 2677

作者：爱分析ifenxi

微信搜一搜，关注“爱分析ifenxi”

在过去一年里，AI话题热度持续升温，在大模型百家争鸣的今天，涌现出分门别类的人工智能体，谁会是下一个风口？本文从“ Web Agent 自动化解决方案”和“北大Open Sora生成能力增强”为各位带来AI技术前瞻。

分享嘉宾｜宁鲲鹏元空AI技术联合创始人

Web Agent自动化解决方案

我们希望让 AI 成为真正的生产力，利用 Agent 帮我们干活，幻想中最完美的画面，就是流程中有 Master Agent，发起任意需求，他会去帮你生成一系列工作流。比如投后诊断、小红书达人分析、电商精品分析，自动生成工作流，在云主机上进行实时执行，帮助相应工作的完成，同时将结果、分析结论、数据报表，实时同步，让使用者感受到自己真正拥有了 AI agent 团队。

落实到实际营销场景中，我们完成了从品牌的用户洞察、舆情监控、内容制作、达人营销、账号矩阵自动化运营、智能客服等一整套全链路AI产品场景矩阵。

从技术层面来看，具体会涉及到LAM，该概念最早在 Rabbit 中提到。通过描述任务，比如：分析精致贵妇的生活KOL，LAM具备两个功能。

1、自我规划能力

2、自我反省能力。

针对任务，做相应的思考与规划。去小红书蒲公英上搜索相应的关键词，找到相应博主，分析对应的帖子内容与文案，最后产生report，以邮件的方式反馈。

一步步的流程形成工作流，只要描述内容，让多模态大模型生成工作流，后面只需要安排他干活就行了，发布指令就能完成系列工作。

举一个简单版的学术上的例子，我想在学术网页上查找学者的引用量，首先发起任务，“帮我查找 Hinton 的引用量是多少”。Agent会自动思考，模拟人的行为把学者名字输入到搜索框里，完成相应的点击操作。这个模式跟自动驾驶类似，人可以从中间介入，他会综合思考两个东西，人类给的提示与 Agent 自己的思考，得出结论。最终会形成对应的工作流沉淀下来，相当于已经训练好了一个员工，后续只需执行，他就会按照操作帮你完成接下来的工作。

具体包含两个内容

1、通过 task 驱动，只需要描述task，它可以自动完成且形成工作流，下一次也可以接着用。

2、用户可随时介入，觉得回答不准或不达意，可实时沟通调整，修改相应的工作流。

技术细节方面，我们发现 AI 能完全理解你的需求，也知道该如何执行。难点在于对于常人来说是一个非常简单的问题，直接把需求输入到搜索框里面就可以了，但 AI 怎么转换成对应的指令且准确地输入，这是比较困难的。

第一，首先有一个大屏幕做全局扫描，可理解成分割，把网页的 HTML 代码对应的叶子节点拿出来，搜索框、logo、图片都是叶子节点， html 是树形结构，我们只需要最下面一批就足够。

第二，图像分割之后我们可以知道所有的东西。

第三，剩下事情就变成了召回和 ranking 的过程，任务跟什么相关，只需要进行排序，再去输入指令就够了。

北大Open Sora生成能力增强

目前非常火的项目视频生成（ open Sora ）。Open AI很早发布了Sora，虽然没有对外开放，但效果非常炸裂惊艳。我们团队希望用开源的力量复现出Sora，成为视觉版LLaMA。因为算力有限，希望以开源的方式让更多的算力进来，让Sora能力越来越强，这是团队的初衷。

具体的实现方式包含三个部分。

1、压缩和解压过程。2、 Diffusion 。3、Condition 线路。

现在的 AI 技术，包括 GPT、视频生成、文生图。技术都是大道至简的感觉，对技术方案上较为统一。拼的更多是数据上的沉淀，细节训练、修改。

比较标准的方案具体有三部分，第一部分是视频的压缩和解压，形象点来说在电脑上把所有视频压缩成zip 包，然后再进行解压。中间部分可以理解成 zip 包，只不过由编码方式来进编码，VAE是经典的模型，把原始视频输进去，能达到一分钟 720P 的重建Demo，压缩率目前可达到 256 倍，个人也认为，只要把信息压缩得足够多，生成效果会越好。这并不是用文本生成视频，这是重构，意味着把原视频输进去，通过压缩再解压，是否能还原。

DiT 在图文生图领域很常见，包括 Midjourney 与其他的文生图都是通过这种该方法，Diffusion也是做视频生成的常用方案。它具体如上图所示，框架内训练了一个压缩器和解压器，可以理解成就把视频打包成zip，可将他看做向量，然后这个向量里面我们会给它不断地加随机噪声，直到变成完全随机噪声，这是整体输入的过程。Diffusion 可起到去噪的效果，能够还原之前的视频，同时把 Condition 加进去，按照这些条件进行生成，都是一样的道理。

Condition 包括草图、深度、关键点，只按照规定的几个关键点去做相应的生成，但文本还是目前主流方式。

最后提出一个问题供大家思考讨论：文生视频这个事情离商业化比较遥远，大家会不会愿意为一个“闲聊”的玩具买单？