我要投稿

我让 Codex Computer Use 接管电脑，看它能做到什么程度_tag2

发布日期：2026-06-07 08:33:15 浏览次数： 1523

作者：大熊的AI工具实验室

微信搜一搜，关注“大熊的AI工具实验室”

👆 点击上方“大熊的AI 工具实验室”关注我，给公众号加个星标⭐，不错过每一篇干货。

周末做了几个实验，把电脑的鼠标和键盘交给 Codex，让它使用自己 Computer Use 功能自己看屏幕、点按钮、操作软件。

设计了几个案例，我们一起看下它 Codex 的这个功能的实用性究竟如何。

最近我在给自己手搓一个工具，让 Codex 加个“图库”功能。以前的流程是：写前端代码、写后端接口、本地测试、提交代码、部署、打开浏览器手动测试……整套流程下来至少半小时。

这次我试着把整件事交给 Codex。我给它发了一段需求：在当前项目中新增一个图库功能，前端新增图库入口和页面，支持上传、展示、查看大图、删除图片，后端补齐必要的接口，使用项目现有的存储方式和 UI 风格，完成后运行本地测试，提交代码，部署到测试服务器，最后打开真实页面验证功能。

整个过程十分钟左右。它修改了前端代码，新增了图库页面和入口，写了后端的上传、查询、删除接口，跑了本地测试通过，提交了代码，部署到我的 VPS 更新了 Docker 镜像，做了健康检查，最后打开浏览器验证：进入图库页面、上传图片成功、列表从 7 张变为 8 张、点击预览能打开大图。

中间有个小插曲：我忘了在需求里写往哪个服务器部署，它开始瞎猜，我补充了一句“服务器是 xiong 的 vps”，它就找到了正确的部署配置继续执行。

最后它给我一份完整的报告：代码提交记录、本地检查结果、VPS 部署信息、健康检查状态、电脑验证结论、部署地址。

整个过程能接受，这和平时的 VibeCoding 类似，只是中间加入了 Computer Use 功能。Codex能全程帮我点击验证功能是否可用。

从一张设计稿到真实可用的页面

这个案例更有意思：我先用 AI 生成了一张监控大屏的设计稿（Operations Cockpit），然后让 Codex 照着这张图把页面实现出来。

设计稿长这样：深色主题、顶部是服务可用率、吞吐量、延迟等指标卡片，中间是全球网络拓扑图，底部是各种趋势图表，右侧是异常告警和资源使用率面板。典型的 DevOps 监控大屏，组件很多，细节很复杂。

我给 Codex 发了这张截图，告诉它：“请根据这张截图，在当前项目里实现一个相同风格的页面。完成后使用电脑打开页面，对照原截图检查布局、颜色、间距、按钮状态和移动端适配。如果发现不一致，请继续调整，直到桌面端和移动端都没有明显视觉问题。最后给我截图和还原度结论。”

然后它开始工作：分析截图，识别出这是一个包含左侧导航、顶部指标卡片、中央地图、底部图表、右侧告警面板的复杂布局；用纯 HTML/CSS/JS 实现，没有引入任何框架；启动本地服务；用 Computer Use 打开 Chrome 对比原图；发现 Region Health 区块和下方图表有轻微压缩重叠，回去调整 CSS；继续验证移动端适配，确认没有明显视觉问题。

最终它给我一份完整的交付报告，包含桌面端和移动端两个截图。

桌面端的整体布局高度还原，深色主题和霓虹蓝绿橙红的状态色完全一致，所有核心组件都实现了，连细节都到位：趋势线的渐变效果、状态指示灯、百分比进度条、时间轴上的事件标记。

它还给了一份诚实的还原度评估：“还原度结论：约 85%。整体布局、深色科技风、卡片密度、霓虹状态色、右侧告警栏、底部时间轴、移动端单列适配都已经接近原截图。主要差异是世界地图为自绘 SVG 拓扑，不是原图那种更细致的真实地图纹理，图标也用了轻量符号而非完整图标库。桌面端和移动端未发现明显重叠、横向溢出、实钮状态异常。”

这种“85% 还原 + 明确说明差异”的交付方式，比“100% 完美实现”更靠谱。

这个案例最神奇的地方在于：从设计到实现到验证，全程 AI 闭环。设计稿是 AI 生成的，实现是 Codex 写的，验证也是 Codex 自己打开浏览器对比的。我只是在开头给了一个需求（“做一个监控大屏”），在结尾验收了一下结果。

第三个案例本来想演示 Codex 操作老系统界面，批量录入数据。我让它自己去 GitHub 找了个开源 CRM 系统，搭建在本地，然后让它操作界面录入几条测试客户数据。

搭建过程很顺利，8 分多钟就跑起来了。但真正操作界面时，问题来了：速度慢得让人着急。人工录入一条数据可能 30 秒，Codex 要 2-3 分钟——它需要截图识别页面元素、判断应该点哪个按钮、填写每个字段、等待页面响应、再截图确认结果。

更要命的是不稳定。有时候点击没反应，有时候填错了字段，有时候卡在等待页面跳转。试了几轮之后，我放弃了。

这个场景理论上很美好：那些没有 API 的老系统，终于可以用自然语言操作了。但实际体验是，写个简单的 Python + Selenium 脚本可能更靠谱。Computer Use 在这方面还有待进步。