微信扫码
添加专属顾问
我要投稿
周末我让 Codex 的 Computer Use 功能接管电脑,它不仅能自动写代码、跑测试,还能亲自操作软件验证结果,全程无需人工干预。核心内容:1. 自动化实现图库功能:从前端到后端,再到部署验证2. 根据设计稿还原复杂监控大屏,并自动进行视觉检查3. Codex Computer Use 功能在开发流程中的实际应用与潜力
👆 点击上方“大熊的AI 工具实验室”关注我,给公众号加个星标⭐,不错过每一篇干货。
周末做了几个实验,把电脑的鼠标和键盘交给 Codex,让它使用自己 Computer Use 功能自己看屏幕、点按钮、操作软件。
设计了几个案例,我们一起看下它 Codex 的这个功能的实用性究竟如何。
最近我在给自己手搓一个工具,让 Codex 加个“图库”功能。以前的流程是:写前端代码、写后端接口、本地测试、提交代码、部署、打开浏览器手动测试……整套流程下来至少半小时。
这次我试着把整件事交给 Codex。我给它发了一段需求:在当前项目中新增一个图库功能,前端新增图库入口和页面,支持上传、展示、查看大图、删除图片,后端补齐必要的接口,使用项目现有的存储方式和 UI 风格,完成后运行本地测试,提交代码,部署到测试服务器,最后打开真实页面验证功能。
整个过程十分钟左右。它修改了前端代码,新增了图库页面和入口,写了后端的上传、查询、删除接口,跑了本地测试通过,提交了代码,部署到我的 VPS 更新了 Docker 镜像,做了健康检查,最后打开浏览器验证:进入图库页面、上传图片成功、列表从 7 张变为 8 张、点击预览能打开大图。
中间有个小插曲:我忘了在需求里写往哪个服务器部署,它开始瞎猜,我补充了一句“服务器是 xiong 的 vps”,它就找到了正确的部署配置继续执行。
最后它给我一份完整的报告:代码提交记录、本地检查结果、VPS 部署信息、健康检查状态、电脑验证结论、部署地址。
整个过程能接受,这和平时的 VibeCoding 类似,只是中间加入了 Computer Use 功能。Codex能全程帮我点击验证功能是否可用。
这个案例更有意思:我先用 AI 生成了一张监控大屏的设计稿(Operations Cockpit),然后让 Codex 照着这张图把页面实现出来。
设计稿长这样:深色主题、顶部是服务可用率、吞吐量、延迟等指标卡片,中间是全球网络拓扑图,底部是各种趋势图表,右侧是异常告警和资源使用率面板。典型的 DevOps 监控大屏,组件很多,细节很复杂。
我给 Codex 发了这张截图,告诉它:“请根据这张截图,在当前项目里实现一个相同风格的页面。完成后使用电脑打开页面,对照原截图检查布局、颜色、间距、按钮状态和移动端适配。如果发现不一致,请继续调整,直到桌面端和移动端都没有明显视觉问题。最后给我截图和还原度结论。”
然后它开始工作:分析截图,识别出这是一个包含左侧导航、顶部指标卡片、中央地图、底部图表、右侧告警面板的复杂布局;用纯 HTML/CSS/JS 实现,没有引入任何框架;启动本地服务;用 Computer Use 打开 Chrome 对比原图;发现 Region Health 区块和下方图表有轻微压缩重叠,回去调整 CSS;继续验证移动端适配,确认没有明显视觉问题。
最终它给我一份完整的交付报告,包含桌面端和移动端两个截图。
桌面端的整体布局高度还原,深色主题和霓虹蓝绿橙红的状态色完全一致,所有核心组件都实现了,连细节都到位:趋势线的渐变效果、状态指示灯、百分比进度条、时间轴上的事件标记。
它还给了一份诚实的还原度评估:“还原度结论:约 85%。整体布局、深色科技风、卡片密度、霓虹状态色、右侧告警栏、底部时间轴、移动端单列适配都已经接近原截图。主要差异是世界地图为自绘 SVG 拓扑,不是原图那种更细致的真实地图纹理,图标也用了轻量符号而非完整图标库。桌面端和移动端未发现明显重叠、横向溢出、实钮状态异常。”
这种“85% 还原 + 明确说明差异”的交付方式,比“100% 完美实现”更靠谱。
这个案例最神奇的地方在于:从设计到实现到验证,全程 AI 闭环。设计稿是 AI 生成的,实现是 Codex 写的,验证也是 Codex 自己打开浏览器对比的。我只是在开头给了一个需求(“做一个监控大屏”),在结尾验收了一下结果。
第三个案例本来想演示 Codex 操作老系统界面,批量录入数据。我让它自己去 GitHub 找了个开源 CRM 系统,搭建在本地,然后让它操作界面录入几条测试客户数据。
搭建过程很顺利,8 分多钟就跑起来了。但真正操作界面时,问题来了:速度慢得让人着急。人工录入一条数据可能 30 秒,Codex 要 2-3 分钟——它需要截图识别页面元素、判断应该点哪个按钮、填写每个字段、等待页面响应、再截图确认结果。
更要命的是不稳定。有时候点击没反应,有时候填错了字段,有时候卡在等待页面跳转。试了几轮之后,我放弃了。
这个场景理论上很美好:那些没有 API 的老系统,终于可以用自然语言操作了。但实际体验是,写个简单的 Python + Selenium 脚本可能更靠谱。Computer Use 在这方面还有待进步。
Computer Use 这个功能能不能真正用起来,我认为关键看三点:
够不够丝滑。 前两个案例体验还不错,该做的都做了,中间不需要我频繁介入。但第三个案例就卡得让人着急,点一下等半天,还不一定点对。这种体验下,你宁愿自己手动操作。
够不够精准。 场景二能做到 85% 还原度,已经很不错了。但操作老系统界面时,经常点错、填错、卡住,精准度还不够。如果十次操作有三次出错,你就得一直盯着,那还不如自己来。
Token 消耗有多大。 每次截图、识别、判断、操作、再截图确认,都在烧 token。一个简单的表单录入,可能要来回好几轮。如果是批量操作,成本会很高。现阶段更适合那种“一次性任务”或“低频操作”,不太适合高频重复的场景。
方向是对的。等它更丝滑、更精准、成本更低的时候,可能会真正改变我们和电脑的交互方式。
一切刚刚开始。
最后,祝大家六一儿童节快乐😄
如果这篇文章对你有启发,欢迎点赞、转发、评论分享你的看法。你是怎么用 AI 工具的?有没有遇到什么有趣的场景或者踩过的坑?留言区聊聊。
往期推荐:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-07
ChatGPT记忆大升级,十亿人免费用!_tag2
2026-06-06
为什么云端 Agent 基建这么难?_tag2
2026-06-06
Anthropic 被曝雇1000名人类工程师“培训”Claude Code,时薪280美元:AI 编程越进化越离不开真人兜底_tag2
2026-06-06
Claude Code团队亲述:AI原生工程组织,正在淘汰传统研发流程_tag2
2026-06-05
Anthropic:当 AI 开始自我构建(中英对照)_tag2
2026-06-05
测完三个天气MCP,我找到了把气象专家装进AI Agent的最佳路径_tag2
2026-06-05
OpenAI昨夜悄悄做了一件事:AI Memory整个赛道,一夜被重写_tag2
2026-06-05
OpenAI上线全新记忆系统Dreaming:ChatGPT真正拥有了长期记忆_tag2
2026-04-15
2026-04-07
2026-03-13
2026-03-31
2026-04-07
2026-03-17
2026-03-17
2026-03-21
2026-04-24
2026-04-17
2026-06-03
2026-06-02
2026-06-01
2026-05-26
2026-05-23
2026-05-21
2026-05-19
2026-05-09