免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

搭建一个云端Skills系统,随时随地记录TikTok爆款

发布日期:2026-01-23 20:57:09 浏览次数: 1533
作者:饼干哥哥AGI

微信搜一搜,关注“饼干哥哥AGI”

推荐语

这篇文章教你如何用OpenHands+Skills+iOS快捷指令,打造真正落地的业务自动化系统,让TikTok爆款分析变得简单高效。

核心内容:
1. 为什么Claude Code在业务侧是伪需求
2. 从刷视频到数据入库的完整闭环设计
3. 基于OpenHands的云端Skills系统实现方案

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近 Claude Skills 很火。

但我观察了一圈,发现大家都在陷入一种“开发者的自嗨”。

绝大多数 Skills 的应用场景都被死死锁在 IDE 里,锁在开发者的电脑前。

这叫开发提效,不叫业务提效。


真正的业务发生在移动端,发生在你通勤、吃饭、甚至躺在床上刷 TikTok 的时候。

如果你的 AI 能力必须打开电脑、输入命令行才能调用,那它的时空效率就是零。

于是我抛弃本地的 Claude Code,基于 OpenHands 做了一套云端 Skills 系统


效果极其简单粗暴:

我在刷 TikTok,看到一个爆款视频,点击复制链接,敲击 iPhone 背面三下。

20 秒后,我的飞书多维表格里自动新增了一行数据。

Image

这行数据包含了:这个视频的无水印文件、Gemini 拆解的镜头语言分析、爆款原因推导,以及一套可直接复用的 AI 视频生成提示词。

全过程我不需要打开电脑,不需要切换 APP,不需要等待。

这就是我今天要聊的:如何用 OpenHands + Skills + iOS 快捷指令,构建一套真正落地的业务自动化系统。

01 为什么 Claude Code 在业务侧是伪需求

先厘清两个概念:OpenHands 和 Claude Code。

Claude Code 是 Anthropic 官方推出的命令行工具,它是一个嵌入在你本地终端里的结对程序员。它的 Skills 本质是上下文记忆本地工具接口

它的优势是懂你的代码规范,能直接改你电脑里的文件。

但它有一个对于业务场景的致命弱点:它必须依附于你的会话,你不在,它就不动。

它是一个副驾驶(Copilot)。


而 OpenHands(前身 OpenDevin)是一个开源的、自主的 AI 软件工程师。它运行在 Docker 容器里,是一个独立的服务端 Agent

Image

https://openhands.dev/

它是一个可以被封装成 API 服务的数字员工。

我看重 OpenHands 的核心理由只有一个:它可以 24 小时在线,并且可以通过 API 远程唤醒。

我做的这个 TikTok 分析系统,本质就是把 OpenHands 部署在服务器上,通过 FastAPI 暴露接口。

Claude Code 是给你用的工具;OpenHands 是你雇佣的、随时待命的员工。

🐵

小提示:FastAPI 的服务地址后加/docs就是文档了


02 业务视角:从 刷视频 到「数据入库」的闭环

对于做出海营销和短视频矩阵的朋友,拆解爆款是每天的必修课。

传统的流程极其反人类:

  1. 1. 手机刷到视频,点收藏。
  2. 2. 晚上回家打开电脑,把链接导出来。
  3. 3. 找第三方工具去水印下载。
  4. 4. 把视频传给 Gemini 分析。
  5. 5. 人工把分析结果复制粘贴到 Excel 或飞书。

这个链路太长,断点太多。任何需要延迟满足的流程,最终都会变成不了了之


我的远程 Skills 方案,把这个流程压缩到了极致。

整个逻辑是这样的:

Image

用户端(前端)

利用 iOS 自带的快捷指令 + 背部轻点功能。

  • 动作:获取剪贴板内容(TikTok 链接)。
  • 触发:发送 HTTP POST 请求给我的服务器。
  • 反馈:手机震动一下,表示任务已接收。
    Image
    Image

    服务端(后端)

    OpenHands 接收到请求后,自主执行以下 Skills:

    1. Playwright Skill:

    启动无头浏览器。这里有一个技术难点,TikTok 的反爬虫机制非常严格。如果用普通的 request 请求,成功率几乎为零。OpenHands 调用 Playwright 模拟真实浏览器行为,绕过 blob 协议,抓取真实的 MP4 视频流。这种方式的下载成功率稳定在 70%-80%

    2. Gemini Skill:

    视频下载后,调用Gemini 2.5 Flash,便宜。它不只是看,它是理解。它可以识别拍摄角度(俯拍/特写)、运镜方式(推拉摇移)、BGM 节奏点、色彩心理学。

    3. Feishu Skill:

    将清洗好的结构化数据(JSON),通过 API 写入飞书多维表格。

    结果:

    当你刷完半小时视频,打开飞书,几十个爆款视频的深度分析报告已经整整齐齐躺在那里了。

    这才是 AI 赋能业务的本质:隐形化

    Image

    Openhands 的 Skills 文档:

    https://docs.openhands.dev/sdk/guides/skill


    03 举一反三:跨境电商的远程 Skills 玩法

    这套架构的核心逻辑是:移动端触发 -> 服务端 API -> OpenHands 执行复杂 Skills -> 结果回传。

    这个逻辑在出海业务里有无限的延展性。


    我给几个具体的场景,你们可以拿去直接落地。

    场景一:竞品独立站监控

    • 动作:在手机浏览器看到竞品的 Shopify 店铺,复制链接,触发 Shortcut。
    • Skills:OpenHands 调起爬虫 Skill 扫描该站点的新品上架情况、价格策略,并调用 SEO Skill 分析其关键词布局。
    • 产出:一份竞品分析简报直接推送到你的 Slack 或 钉钉。


    场景二:亚马逊差评自动预警与回复草稿

    • 动作:系统监控到差评(自动触发,无需人工)。
    • Skills:OpenHands 读取差评内容,结合历史客服知识库 Skill,分析用户情绪,并模仿金牌客服的语气撰写 3 个版本的回复邮件。
    • 产出:草稿进入审核流,你只需要在手机上点批准。


    场景三:广告素材批量生产

    • 动作:上传一张产品图到指定文件夹。
    • Skills:OpenHands 识别产品特征,调用 Midjourney 或 Runway 的 API,结合当下的流行趋势 Skill,自动生成 10 种不同风格的广告背景图。
    • 产出:素材自动同步到 Google Drive 供投放团队筛选。


    04 为什么非要用 Agent Skills?写个 Python 脚本不行吗?

    这是很多技术出身的朋友最容易陷入的误区。

    你这个功能,我写个 Python 脚本 + 定时任务也能跑,为什么要搞这么复杂的 OpenHands Skills?

    因为业务逻辑是流动的,而脚本是僵死的。

    如果你写死了一个 Python 脚本:

    • 当 TikTok 的前端代码更新了 class 名,脚本报错,你得去修。
    • 当飞书的 API 接口变动,脚本报错,你得去修。
    • 当 Gemini 的模型参数调整,脚本报错,你得去修。

    但在 OpenHands Skills 的架构下,我们定义的不是步骤,而是目标

    在我的 Skill 定义里,我告诉 OpenHands:你的任务是下载这个页面上的视频,如果常规方法失败,尝试模拟用户滚动;如果还失败,检查是否有验证码并尝试通过。


    OpenHands 作为一个 Agent,它具备自主决策自我修复的能力。

    • 它发现 TikTok 改了页面结构?它会尝试用视觉识别去定位播放按钮。
    • 它发现 API 报错?它会自主查阅文档或尝试备用节点。


    在跨境出海这种平台规则朝令夕改的环境下,维护脚本的成本极高。

    我们需要的是一个能够理解意图并自主寻找路径的智能体。


    05 思路打开,Agentic Skills 的高级玩法

    文章到这里,这套远程 Skills 系统的雏形已经搭建完毕。

    但如果你觉得这就结束了,那你就小看了 Agentic Skills 的天花板。


    我们现在的架构是“一个请求触发一个 Skill”,但这只是冰山一角。真正的威力在于 Multi-Skill Orchestration(多技能编排)


    1. 1. Skill Chain(技能链)与递归调用

    OpenHands 的 Skill 本质是可执行的逻辑单元。我们可以像写代码一样,让 Skill A 去调用 Skill B。

    • 比如定义一个 Base-Skill:只负责做基础的数据清洗。
    • 再定义一个 Pro-Skill:先调用 Base-Skill 处理数据,再把结果传给 Analysis-Skill,最后调用 Report-Skill 生成报告。

    你可以构建一个自我迭代的 Agent。让它先写一段代码(Coding Skill),然后自己运行测试(Testing Skill),如果报错,递归调用 Coding Skill 进行修复,直到测试通过。


    2. 混合云架构(Hybrid Agent Architecture)

    OpenHands 运行在 Docker 里,这意味着它可以部署在任何地方。

    • 私有化部署:对于涉及公司财务、用户隐私的数据,你可以把 OpenHands 部署在公司内网服务器上。
    • 公有云调用:对于需要访问外网(如 TikTok 下载、竞品分析)的任务,部署在 AWS 或 Vercel 上。

    这样,通过 API 网关,你可以指挥内网的 Agent 去调用外网的 Agent,实现数据在安全域和互联网域之间的智能流转。


    3. “人机回环”的异步交互

    谁说 API 只有“请求-响应”这一种模式? 在我的系统中,有些复杂任务(如竞品深度调研)可能需要运行 30 分钟。

    • 流程设计:OpenHands 接收任务 -> 立即返回 TaskID -> 后台异步执行。
    • 关键点:当 Agent 遇到无法决策的卡点(例如:这个验证码我解不开,或者这个竞品网站有两套价格体系,取哪套?),它可以主动通过飞书/Slack 给你发消息请求确认。

    你点击确认后,Agent 继续执行。这才是真正的人机协作:AI 处理海量冗余信息,人类只在关键节点做决策。

    在这个体系下,Skills 不再是静态的脚本,而是可生长、可组合的原子能力。

    未来,你的个人服务器里可能运行着上百个这样的 Skills。它们是一群田螺姑娘,在你睡觉的时候,帮你监控市场、回复邮件、整理知识、优化代码。


    而你,只需要握着手机,轻轻敲两下背部,就像魔法师挥动了魔杖。

    这,才是 Agent 时代的真正玩法。

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询