支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


免费开源的 Nanobrowser,竟成Web自动化的 “隐形高手”?

发布日期:2025-06-08 11:55:19 浏览次数: 1514 作者:测试工程师成长之路
推荐语

Nanobrowser,测试工程师的网页自动化利器。

核心内容:
1. Nanobrowser的AI驱动网页自动化功能
2. 多智能体系统在实际任务中的应用测试
3. 交互式侧边栏的用户体验及效率提升

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

 点击上方【测试工程师成长之路】关注我们

亲爱的小伙伴们,由于微信公众号改版,打乱了发布时间,为了保证大家可以及时收到文章的推送,可以点击上方蓝字关注测试工程师成长之路,并设为星标就可以第一时间收到推送哦!








感谢您抽出

.

.

阅读本文

Nanobrowser 是什么

作为一名测试工程师,日常工作里,我常常被繁琐的网页操作折磨得苦不堪言。像是反复地在不同页面间切换、机械地填写各种表单、大海捞针般地筛选信息…… 这些看似不起眼的任务,却耗费了我大量的时间和精力,效率直线下降,还容易因为疲劳出现人为失误。我一直在寻觅一款强大的工具,能帮我从这些重复劳动中解脱出来 ,直到我发现了Nanobrowser

Nanobrowser是一款开源的Chrome扩展工具,专注于AI驱动的网页自动化,就像是给浏览器请了个智能助手,能自主完成各种复杂的网页任务。它完全免费,所有操作都在本地浏览器运行,不用担心隐私数据被泄露,还支持DeepSeekOpenAIAnthropicGemini等主流的大型语言模型,你可以根据自己的需求和预算,灵活配置API密钥 ,选择最合适的模型。

功能实测:真有说的那么神?

纸上得来终觉浅,绝知此事要躬行。光听介绍可不够,我(TesterRoad)决定亲自上手测试一番,看看Nanobrowser是不是真像传说中那么神。

多智能体系统:分工明确,配合默契

打开安装好Nanobrowser扩展的Chrome浏览器,一个简洁的侧边栏界面出现在眼前,这就是与智能体交互的主要阵地。我决定先给它布置一个复杂的任务:在电商平台上,帮我挑选一款价格在5000 - 8000元之间,内存16GB及以上、硬盘512GB及以上,且用户评分4.5分以上的笔记本电脑 ,并整理出性价比最高的三款。

在侧边栏输入指令后,规划器Planner迅速开始分析任务,制定出详细的执行策略。它先是确定需要访问哪些电商平台,然后规划好搜索的步骤和筛选条件。紧接着,导航器Navigator就按照Planner制定的策略,自动在浏览器中打开各大电商平台的页面,精准地输入搜索关键词,点击筛选按钮,填入价格、配置、评分等筛选条件。在这个过程中,每一步操作都能在浏览器中清晰看到,就像有个无形的手在帮我点击一样。

最后,验证器Validator登场,仔细检查Navigator获取到的商品信息,确保数据准确无误,没有遗漏重要的细节。它会再次核对价格范围、配置参数、用户评分等关键信息,把不符合要求的商品剔除掉。经过一番筛选和比较,Nanobrowser很快就把性价比最高的三款笔记本电脑信息整理出来,呈现在我面前。整个过程一气呵成,不到两分钟就完成了,要是我自己手动筛选,估计得花上大半个小时。

交互式侧边栏:自然对话,实时反馈

在使用过程中,交互式侧边栏给我留下了深刻的印象。它的界面设计非常简洁直观,就像我们平时使用的聊天软件一样,输入指令和查看回复都一目了然。当我向它提出任务需求时,它能快速理解我的意图,给出准确的回应。而且,在任务执行过程中,它会实时更新任务状态,让我随时了解进展情况。

有一次,我让它帮我收集最近一周关于人工智能的新闻资讯,并整理出关键要点。刚输入完指令,侧边栏就显示 “已收到任务,正在制定策略”,接着马上展示 “正在访问新闻网站”“正在筛选相关文章”“正在提取关键要点” 等实时状态。如果遇到问题,它也会及时反馈,比如某个网站无法访问,它会提示我可能的原因,并尝试寻找其他替代方案。这种实时的交互体验,让我感觉不是在和一个冷冰冰的工具打交道,而是有个智能助手在身边,随时沟通交流。

任务自动化:解放双手,效率飙升

为了测试任务自动化的能力,我给Nanobrowser布置了一个重复性的繁琐任务:从一个包含大量客户信息的网页表格中,提取出所有年龄在30岁以上、居住在特定城市的客户姓名和联系方式,并整理成Excel表格。要是以往,我得手动一行一行地查看表格,筛选出符合条件的客户,再复制粘贴到Excel中,不仅耗时费力,还容易出错。

但有了Nanobrowser,一切都变得轻松简单。我只需在侧边栏输入指令,它就立刻开始工作。它自动识别网页表格,按照我设定的筛选条件,快速准确地提取出相关客户信息,然后自动打开Excel软件,将数据填入表格中,最后还贴心地帮我保存好文件。整个过程完全自动化,我只需要坐在电脑前,看着它有条不紊地完成任务,短短几分钟,就完成了原本需要花费一两个小时的工作,效率提升了好几倍。而且,由于是机器操作,避免了人为失误,数据的准确性也得到了保障。

多 LLM 支持:灵活选择,各取所长

Nanobrowser支持多种主流的大型语言模型,这让我可以根据不同的任务需求和成本考量,灵活选择最合适的模型。我分别使用了OpenAIGPT-4AnthropicClaude模型来执行相同的任务,对比它们的表现。

在处理一些需要创意和深度理解的任务时,比如撰写一篇关于科技发展趋势的文章,GPT - 4展现出了强大的语言生成能力,生成的文章逻辑清晰、内容丰富,语言表达也非常流畅自然。而在处理一些对准确性和事实性要求较高的任务,如整理金融数据报告时,Claude表现得十分出色,它能够精准地分析数据,给出准确的结论和建议,对细节的把握非常到位。通过这种多LLM支持的方式,我可以充分发挥不同模型的优势,让Nanobrowser在各种任务中都能表现得更加出色。

详细使用教程:小白也能秒上手

是不是已经迫不及待想要亲自体验一下Nanobrowser的神奇功能了?别着急,接下来我就手把手教你如何安装和使用它,就算是技术小白也能轻松上手 。

安装步骤

  1. 1. 下载文件:打开你的浏览器,访问Nanobrowser的官方GitHub仓库,在页面中找到最新版本的nanobrowser.zip文件,点击下载 。
https://github.com/nanobrowser/nanobrowser/releases
  1. 2. 解压文件:下载完成后,找到下载的nanobrowser.zip文件并解压。
  2. 3. 启用开发者模式:打开Chrome浏览器,进入扩展程序页面。打开“开发者模式” 。
  3. 4. 加载扩展:在扩展程序页面左上角,点击 “加载已解压的扩展程序” 按钮,在弹出的文件选择窗口中,找到并选择刚才解压的nanobrowser文件夹,然后点击 “选择文件夹”。

当然,你也可以直接进入Chrome应用商店直接搜索下载

配置智能体模型

安装完成后,我们还需要配置智能体模型,让Nanobrowser能够使用你选择的大型语言模型。

  1. 1. 打开侧边栏:点击Chrome浏览器工具栏中的Nanobrowser图标,打开Nanobrowser的侧边栏。
  2. 2. 添加 API 密钥:在侧边栏右上角,点击设置图标,在弹出的设置菜单中,找到API Keys选项,点击它。然后,根据你使用的大型语言模型,输入相应的API密钥。比如,如果你使用OpenAI的模型,就输入OpenAI API密钥;如果使用AnthropicClaude模型,就输入Anthropic API密钥 。
  3. 3. 选择模型:添加完API密钥后,在Model Selection下,找到Model选项。在这里,你可以为不同的智能体(PlannerNavigatorValidator)选择使用的模型。比如,你可以为Planner选择gpt-4模型,以获得更强大的任务规划能力;为Navigator选择gpt-4o模型,让它在执行网页操作时更加精准。

指令输入与任务执行

一切准备就绪,现在就可以让Nanobrowser大展身手啦!在侧边栏的输入框中,输入你的任务指令,就像和朋友聊天一样,用自然语言描述你想要完成的任务。下面TesterRoad给大家列举一些常见任务指令示例:

  1. 1. 数据抓取:“从豆瓣电影 Top250 页面,提取电影名称、评分和导演信息,并保存为CSV文件”。
  2. 2. 信息监控:“监控小红书上关于‘美妆新品’的最新笔记,每小时给我推送一次”。
  3. 3. 电商购物:“在淘宝上搜索‘运动鞋’,筛选出价格在300 - 800元之间,销量前10的商品,并比较它们的性价比” 。
  4. 4. 办公自动化:“登录我的企业邮箱,将主题包含‘重要会议’的邮件标记为已读,并转发给我的同事” 。

输入指令后,点击发送按钮,Nanobrowser就会开始分析你的指令,制定任务策略,并在浏览器中自动执行任务。在任务执行过程中,你可以在侧边栏实时查看任务状态,了解任务进展情况。如果任务执行成功,Nanobrowser会将结果展示在侧边栏中;如果遇到问题,它也会及时反馈,告诉你可能的原因,并尝试寻找解决方案 。

与同类工具对比:优势在哪

市面上的网页自动化工具不在少数,像知名的OpenAI OperatorBrowser-Use 、Nanobrowser和它们比起来,优势相当明显。

OpenAI Operator相比,Nanobrowser最大的优势就是免费开源。OpenAI Operator每月的订阅费用可不低,对于个人用户和小型团队来说,是一笔不小的开支。而Nanobrowser完全免费,没有任何订阅费用,只需安装扩展程序,配置好自己的LLM API密钥,就能使用顶级的网页自动化功能,成本大大降低,让每个人都能轻松享受到AI带来的便利 。在隐私方面,OpenAI Operator采用云端运行,数据存储在云端服务器,这就存在隐私泄露风险。而Nanobrowser所有操作都在本地浏览器执行,API密钥和操作数据都保存在本地,不用担心敏感信息被泄露,对隐私敏感的用户来说,简直是福音。

和基于Python开发的Browser-Use相比,Nanobrowser在操作便捷性上更胜一筹。Browser-Use作为一款LLM智能浏览器自动化工具库,需要一定的Python编程基础才能使用,对于普通用户来说,门槛较高。而Nanobrowser提供了直观的交互式侧边栏,用户通过自然语言指令就能让它完成各种网页任务,就像和智能助手聊天一样简单,不需要编写任何代码,真正做到了零门槛上手 。在功能上,虽然Browser-Use能实现网页自动化、多标签管理和视觉识别等功能,但Nanobrowser的多智能体系统更加智能灵活,不同智能体分工协作,能更好地处理复杂的网页工作流程,遇到障碍时还能自动调整策略,确保任务顺利完成 。

总结与展望

经过这段时间的深度使用和测试,Nanobrowser给我带来的是实实在在的效率飞跃,它就像一个懂我心思的得力助手,帮我把那些繁琐、重复的网页操作轻松搞定。无论是多智能体系统的默契协作,还是交互式侧边栏的便捷沟通,又或是任务自动化带来的解放双手,以及多LLM支持的灵活选择,每一个功能都让我真切地感受到了AI驱动网页自动化的强大魅力 。

从软件测试的角度来看,Nanobrowser的稳定性和准确性都表现出色,在多次测试中,都能按照设定的指令准确执行任务,很少出现错误或异常情况 。而且,其开源免费的特性,以及对隐私的高度重视,让它在众多同类工具中脱颖而出,成为了注重效率和隐私用户的不二之选 。

据我所知,Nanobrowser的开发团队正在快马加鞭地开发新功能。未来,它将会集成更多的大语言模型提供商,给我们带来更丰富的选择;安全防火墙的加入,会让浏览操作更加安全可靠;内存优化也在计划之中,在减少令牌使用的同时,还能保持出色的上下文感知能力;会话回放功能可以让我们高效回顾历史任务,还能降低令牌消耗;针对复杂领域任务的专用代理也在开发中,相信会给特定领域的工作带来极大的便利 。

如果你也像我一样,被繁琐的网页操作困扰,不妨试试Nanobrowser。我坚信,它会给你的工作和生活带来意想不到的惊喜,让你从此告别重复劳动,拥抱高效便捷的数字化生活 。赶紧去体验一下吧,记得在评论区分享你的使用感受哦!

 

如果你觉得这篇文章还不错,不妨动动手指,给它点个赞?,让更多人看到它的魅力。觉得内容对你有帮助,就大胆地分享到朋友圈吧,让知识传递得更远。同时,也欢迎在评论区留下你的想法和见解,我们一起交流探讨。当然,别忘了关注我,这样你就不会错过我后续的精彩分享啦!最后,记得点个“在看”?,让我们共同见证测试之美!


•(END)•

如有任何疑问,点击添加【个人微信】咨询!

喜欢这篇文章欢迎转发、分享朋友圈~


目前100000+人已关注我们

       

       



接口自动化测试系列


UI动化测试系列


自动化测试系列


抓包工具系列


功能测试系列


面试宝典系列


测试工具系列


团队管理系列


性能测试系列


引导三连.jpg

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询