微信扫码
添加专属顾问
我要投稿
Claude Code的火爆揭示了AI交互的本质:从命令行到自然语言,我们一直在追求更直接的"我说,你听"式掌控感。核心内容: 1. 作者20年前通过命令行体验"黑客"掌控感的真实故事 2. 从命令行到AI交互的本质演变分析 3. Claude Code现象背后的用户心理与技术趋势
文:白苏 图:Mew.Design
20多年前某个夏天的凌晨,空气里满是燥热。网吧里更是混浊不堪,方便面的香味、二手烟的臭味,还有青少年过剩的荷尔蒙,全都粘稠地混合在一起。
CS(半条命)的枪声和兄弟们的呐喊声从不远处传来,但我顾不上这些。我把自己缩在角落最不起眼的那个卡座里,把CRT显示器的亮度调到最低,心跳得像在打一盘赢不了的《星际争霸》。那年我还在上中学,这是我省下一个星期的早饭钱,换来的一整个“包夜”。但我不是来打游戏的。
屏幕上,是一个与周围所有华丽游戏界面格格不入的、全黑的命令行窗口。我的第一步不是攻击,而是“聆听”——用数字的方式,聆听这间网吧里几十台电脑的“呼吸”。
随后,我敲下了那行我至今都记忆犹新的扫描指令:
C:\> nmap -p 135 192.168.1.0/24
这个命令会像蝙蝠的回声定位一样,探测整个局域里,有哪些电脑开放了135端口。几分钟的等待,每一秒都像一个世纪。终于,扫描结果一行行地显示出来,我的目光锁定在了其中一行上:
Host 192.168.1.250 is up.
Port 135/tcp is open.
就是它了。
在当时,知道这个意味着什么的人可能不多,那些网管可能都不知道什么是cmd。 其实那是微软刚刚发布了MS03-026安全补丁,但网吧老板显然还没来得及给每一台机器都装上。 这个开放的135端口,就是RPC DCOM服务上那个致命的缓冲区溢出漏洞,它像一个没有上锁的后门,敞开在我的面前。
我深吸一口气,粘腻的空气呛得我有点咳嗽。我环顾四周,网管正在打瞌睡,邻座的哥们已经趴在键盘上睡着了。很好。我转回头,在命令行里加载了我的终极武器,那个从“华夏黑客联盟”论坛里下载来的、专门针对这个漏洞的exploit程序:
C:\> dcom_exploit.exe 192.168.1.250
回车。
没有华丽的进度条,没有确认弹窗。只有几秒钟死一般的寂静。 然后,一个新的命令提示符,凭空出现在我的屏幕上:
C:\WINDOWS\system32>
成功了。
那一刻,我感觉自己像一个数字世界的幽灵,悄无声息地穿过了这间喧闹网吧里的铜墙铁壁。我没有做什么坏事,只是用dir命令看了一眼C盘的文件列表,用echo "Agenl 到此一游,赶紧修复你的电脑" >proof.txt
留下了一行无害的印记,然后便立刻断开了连接。
天快亮了,我结账下机,把那几块钱押金揣回兜里。走出网吧,清晨的凉风吹在脸上,我长长地舒了一口气。没人知道,在刚刚过去的几个小时里,这个穿着校服、貌不惊人的少年,曾短暂地扮演了一次“黑客”。
那种通过一行行精准、神秘的文本,获得计算机底层最高控制权的感觉,那种“我说,你听”的绝对掌控力,永远地刻在了我的脑子里。
开头跟大家分享的这个小故事,是我20多年前的亲身经历。
所以我跟cmd很熟,跟cli也很熟,这也是为什么我对于今年Claude Code以及Gemini CLI、Amazon Q这类cli产品的大火,一点都不惊讶的原因。
实际上,早在23年初我刚开始研究AI Agent产品的时候,我就觉得最应该、也最适合被AI改造的产品是什么?——是iTerm2,一个macOS上的终端软件。
这并非空穴来风。
我在21年做一个数据存储的项目时。 我一个人,要管理一个机房里几十台服务器,每台机器都连着至少30块以上的硬盘。我们所有的机器,都是Linux系统,没有显示器,也没有图形界面。
所有的操作,从部署系统、监控硬盘状态,到迁移数据,全部通过SSH连接后,在命令行里完成。
而我们的同行是什么样的?他们推着一个小推车,上面放着显示器、键盘和鼠标,像古代的郎中一样,一台台电脑挨个连接过去,在图形界面上点来点去。
所以,当我们用脚本一键管理所有机器时,我们对他们,形成了绝对的“降维打击”。
时间快进到23年,一个叫open-interpreter的开源项目火了。
它能做什么?你可以在macOS的终端里,用自然语言让它生成并执行Apple Script,从而直接操作你的电脑。
比如你说“帮我把桌面所有截图文件移动到‘截图’文件夹里”,它就能自动完成。 我为什么讲这些故事? 其实就是想告诉大家,CLI Agent的爆火,从来不是偶然,而是技术发展到今天的必然结果。
这背后,有两个密不可分的核心原因。
我们可能都忘了,图形界面(GUI)其实是一个“翻译器”。它是为了让不了解计算机原理的普通人,也能通过点击图标、按钮这些形象化的操作,来使用电脑。
但对于计算机本身而言,它最习惯、最高效的交流方式,就是命令行指令。
就像在我的那三个故事里:
CLI,就是计算机的母语。它绕过了所有图形化的包装,直达权力的核心。
AIAgent作为一个追求极致效率的“超级大脑”,它思考完之后,最自然的选择是什么?当然是说“母语”,直接调用CLI去执行任务,而不是去模拟人类,在一个个GUI窗口上“点击按钮”。
让一个AI去学习如何操作GUI,就像让一个精通多国语言的外交家,去通过比手画脚来交流一样,滑稽、低效且多此一举。但是这个比喻,在2024年,曾活生生地、以一种让我觉得匪夷所思的方式上演过、火过。
24年,很多所谓的“UI Agent”产品突然就大火。它们的工作方式是什么呢?就是像人一样,先给你的屏幕截个图,然后用视觉模型去识别界面上哪里是按钮、哪里是输入框,再模拟鼠标移动过去,点击、输入。
它把一系列这样的操作连起来,假装自己是个人在操作电脑。 为了大模型能够更精准地识别和点击,还需要把截图反向提取UI元素,做Grounding定位。
这是更深层次的原因。
GUI的产品哲学,是 “引导” 和 “预设”。它的本质,是产品经理和程序员,提前预测了你可能会有的需求,然后把这些需求,做成了一个个固定的按钮、菜单和流程。
这在过去是优点,但在AI时代,却成了它致命的“牢笼”。
还是那个老掉牙的例子:你想在某个设计软件里,“把所有红色的元素调成蓝色,但要保持它们各自的透明度不变”。
GUI无法提供一个“一键完成”的按钮。因为它在被设计时,根本无法预料到你会提出这样一个千奇百怪、又无比具体的需求。你只能按照它预设的、繁琐的步骤,一步步手动操作。
GUI的“所见即所得”,可悲地变成了 “所见即所限”。
而AI Agent的到来,彻底打破了这个限制。
AI的强项,恰恰是理解和处理非预设的、无限的、动态的复杂意图。当你用自然语言提出一个需求时,AI Agent会把它分解成一系列最基础、最原生的命令行指令去执行。
GUI为你画好了一张地图,你只能在固定的道路上行走。而CLI给了AI一片广阔的土地,让它可以根据你的目的地,自己规划出最短、最高效的路径。
所以,现在我们再来看Claude Code和Gemini CLI的火爆,就豁然开朗了。
这不是在开历史的倒车,回到那个“黑屏白字”的原始时代。
恰恰相反,这是一场回归本质的终极进化。
过去,是人类,必须去学习机器晦涩的“母语”(命令行),才能获得对机器的绝对控制权。 现在,是机器(AI),主动学会了人类的语言,然后用它最擅长的“母语”(命令行),去为我们服务。
我们终于可以扔掉GUI这个“翻译器”和“拐杖”了。我们不再需要去学习如何使用一个被预设好的工具,我们只需要清晰地思考、并准确地表达出我们的“意图”。 从“学会使用工具”,到“学会表达意图”——这,就是AI时代为我们带来的、最大的解放。
而这一切,都始于那个看似简单,却拥有无限可能的、闪烁着光标的黑屏白字。它连接着过去,也定义了未来。 AI无限强大,和GUI界面,这其实是冲突的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-07
纳米AI一句话成片功能实测:从文字到视频只需等待
2025-07-07
超级黑马Read AI如何在美国把会议转录做成一门大生意
2025-07-07
MemAgent:当LLM学会记笔记,350万字超长文本处理难题迎刃而解
2025-07-07
大模型落地及Agent记忆的有趣观点:兼看SVG生成用多模态大模型怎么做?
2025-07-07
刚刚,Karpathy 又造新词 :"细菌式编程"诞生记,兼论上下文工程演进史
2025-07-07
基于AI(LLM)和Playwright MCP(模型上下文协议)的测试自动化
2025-07-07
AI Agent 凭什么火?看懂 60 年软件演进史,你就明白了
2025-07-07
用子模优化法为DeepResearch生成多样性查询
2025-05-29
2025-04-11
2025-04-12
2025-04-29
2025-04-12
2025-04-29
2025-05-23
2025-05-07
2025-05-07
2025-05-07