我要投稿

给AI装个眼睛——能说、能看、能分享屏幕

发布日期：2025-08-25 14:31:09 浏览次数： 2410

作者：WA-C-LI

微信搜一搜，关注“WA-C-LI”

快速0成本部署你的专属Gemini多模态AI助手！

没错，就是Google最新发布的Gemini 2.0，不仅完全免费，还支持语音对话、视频通话、屏幕分享等功能。

1.像和朋友/专家聊天一样与AI语音对话

2.开启摄像头让AI"看"到你在做什么、识别物体、判别物料等（场景自己脑补）。

3.分享屏幕让AI帮你分析代码、文档。

4.手机电脑随时随地无缝使用。

我已经帮你踩过所有的坑，整理了最详细的保姆级教程。

不管你是技术小白还是资深开发者，跟着我的步骤，保证让你拥有一个比ChatGPT Plus还要强大的AI助手，而且永久免费！

废话不多说，上干货！

部署指南

第一步：进入https://github.com/tech-shrimp/gemini-playground，也就是tech-shrimp提供的快捷部署方案。

第二步：按Deno部署流程，选择fork本项目，把项目复制到自己名字下面。

点击：Create fork

登录https://dash.deno.com/, 进来以后直接使用github登录。

进行授权

选择Add GitHub Account

点击安装

然后选好github账号

这里面要搞一个自己喜欢的名字，我是用我的名字的首写字母以及数字。

选择src目录里面的deno index.ts

点击部署

部署成功后会自动生成一个域名

接下来需要搞一个谷歌的

Cemini APl key：

https://aistudio.google.com/

创建API密钥（密钥要保密），这个密钥是可以一直免费使用的

把创建好的密钥复制粘贴到网站里，直接点击connect

初始设置步骤：权限配置

当首次使用时系统会请求以下权限：

1.麦克风权限

用于语音输入和实时对话

支持连续对话模式

可识别语音指令和自然对话

2.摄像头权限

用于视觉识别和分析

支持实时图像处理

可进行场景理解和物体识别

重要提示: 请在浏览器弹窗中选择"允许"，确保功能正常运行。

功能对照

应用示例

接下来就开始工作了！开启摄像头它能看一切，解读一切

屏幕共享

窗口共享：只会共享某个应用窗口的画面。例如，你在本地电脑播放一段视频，AI可以实时识别并用中文为你翻译，非常适合专注于单一内容的使用场景。小编用它看个美国大片实时翻译成中文给我。。。

当你把窗口共享给它后，你在产品上的任何操作任务，它都有可能给予指导（具体效果取决于你如何训练它，也就是微调）。

整个屏幕共享：会将你的整个电脑桌面共享给AI，它不仅能解读你播放的视频，还会记录并理解你在屏幕上的各种操作，从而根据你的需求提供解释或辅助。

拓展应用想象

有了这样强大的多模态AI能力，你甚至可以考虑将它集成到更多硬件设备中。比如智能音箱、监控系统，或者如果你有动手能力（钣金、铸造、微电子），甚至可以尝试打造自己的AI机器人助手。

图片为小编与联想人形机器人合影

给它英文，用中文读给我听；

你也可以使用终端做实时翻译，对方说外星语，它会实时翻译给你。

你也可以把它对接到你家摄像头上，也可以做到你的车载摄像头里，但是一定要经过测试

管理智能体：用AI来管理AI

本地GEMINI模型代理托管执行方案

Gemini 是如何调取智能体为我执行任务的？

其实以上简单来说，智能体就像一个智能的项目经理：

1. 首先它会理解俺的需求 当我给它一个任务时，它首先要搞清楚我到底想要什么，然后把大任务拆分成一个个小步骤。

2. 选择合适的工具 它有很多"专业助手"（工具），比如读文件的、运行代码的、搜索信息的。针对每个小任务，会挑选最合适的工具来完成。（当然这些能里有的是它自带的，有的是我通过MCP给它植入的）

3. 执行并检查结果 让工具干活后，它会仔细检查结果是否正确。如果出错了，不会放弃，而是会：

换个工具试试

去找更多信息

实在不行就问我，是不是要换个思维或方案（也就是确认机制）

4. 整合交付 所有小任务都完成后，智能体把结果整理好给我，还会告诉我它做了什么。

这就像我请一个助理帮我办事，遇到问题还会主动想办法解决，实在解决不了才会来问你。

我抽取了一套代理执行wcl -33机制：让本地GEMINI模型作为中间管理层，负责调取和操作wcl -33这个智能体，以下是技术全貌

架构全貌图

执行架构：

技术栈架构层次：

L4 - Presentation Layer (用户接口层)

Natural Language Processing Interface
Intent Recognition & Parsing
Context-Aware Request Formatting

L3 - Business Logic Layer (业务逻辑层)

Local GEMINI Model Runtime Environment
Task Queue Management System
Intelligent Routing & Load Balancing

L2 - Service Integration Layer (服务集成层)

RESTful API Client Abstraction
WebSocket Connection Pool Management
Authentication & Security Token Handling
Circuit Breaker Pattern Implementation

L1 - Infrastructure Layer (基础设施层)

HTTP/HTTPS Transport Protocol
JSON/Protocol Buffer Serialization
Distributed Logging & Monitoring
Fault Tolerance & Retry Mechanisms

核心组件详述：

Intelligent Proxy Gateway: 本地GEMINI模型作为智能网关，实现请求路由、负载均衡和故障转移
Asynchronous Task Orchestrator: 异步任务编排器，支持复杂工作流的分解与并行执行
Adaptive Caching Layer: 自适应缓存层，基于访问模式优化响应时延
Service Mesh Integration: 微服务网格集成，实现服务发现、流量管理和安全策略

工作流程：

任务委托：我将具体的执行需求告知本地GEMINI模型，而不是直接操作这个智能体。

代理执行：本地GEMINI模型接收指令后，自动：

连接到目标URL
解析服务接口和功能
根据我的需求调用相应的API或功能
处理返回的数据和结果

智能管理：本地模型充当智能代理角色：

监控服务状态和可用性
优化调用策略和参数
处理异常和错误重试
格式化输出结果供我查阅

企业应用场景

以下是我给大家归整了一些企业级应用场景（当然不止这些）

最后：两个思维转换

从优化到重塑

AI时代已经到来。关键问题不再是"AI能做什么"，而是"你想用AI创造什么价值"。

大多数人在工作中使用AI时，习惯性地想着如何优化现有流程——让报告写得更快，让数据分析更准确，让沟通更高效。这种思路本身没有错，但也许、可能、大概格局有限。

真正的机会在于跳出优化思维，进入重塑思维：

1.不是让现有任务做得更好，而是质疑这个任务是否还有存在的必要，或是有没有其他的任务替代合并。

2.不是在既定的道路上跑得更快，而是开辟一条全新的跑道。

3.不是修补旧流程的漏洞，而是设计全新的价值创造方式。

比如，与其优化客服回复速度，不如重新思考：我们能否用AI创造一种让客户根本不需要求助的体验？或是客户觉得求助的过程就是上瘾的体验！

从需求到场景思维的转变

传统的产品人往往陷入"用户说什么我们做什么"的思维陷阱。但真正有效的方法是：尽量少谈用户需求，多谈用户场景。

用户需求思维的局限性：

描述过于简单，缺乏上下文
忽视细分市场差异
无法理解真实痛点
难以发现潜在机会

用户场景思维的优势：

补充大量用户信息，构建完整画像（也就是说你的上下文很多）
发现细分市场机会
深入理解用户痛点
挖掘潜在价值点

记住：最大的浪费不是效率低下，而是高效地做着错误或是低价值的事情。

AI给了我们重新定义很多东西本质的机会，别把它仅仅当作提升工具。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-01-09

多模态文档解析模型进展：UNIREC-0.1B架构、数据情况、实际测试

2026-01-09

DeepSeek OCR + mHC 将开启多模态“信息动力学”新范式

2026-01-09

Qwen3-VL-Embedding系列上新：探索统一多模态表征与排序

2026-01-06

NVIDIA Audio2Face-3D 实时语音驱动面部动画最新部署指南

2026-01-05

阿里突然开源Live Avatar！虚拟人进入“无限续帧时代”

2026-01-05

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-04

20年过去了，大厂们又开始卷输入法了。

2026-01-04

断网条件下使用本机AI助手软件实现Excel表格转换为机器可理解的Markdown格式

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

谁是OCR王者？MinerU、PaddleOCR、DeepSeek-OCR 实测对比，集成一个多模态PDF解析系统

2025-11-10

万字拆解UI-TARS 2.0，看懂豆包手机背后的核心技术

2025-12-15

微软又上大分！刚刚开源一款 0.5B 轻量级实时 TTS 模型，还能边想边说！

2025-12-06

DeepSeek-OCR多模态数据分析Agent实战

2025-10-31

DeepSeek-OCR 实测

2025-10-22

阿里 Qwen3-TTS 全新上线！支持9种方言+49种音色，连天津味儿都拿捏了！

2025-12-07

GLM-TTS技术报告：基于多奖励强化学习的可控发音语音合成

2025-12-11

Gemini 3 多模态Prompt：手相宗师 - 玄师

2025-11-19

声画俱全，一镜入戏 | Seedance 1.5 pro 音视频创作模型正式发布

2025-12-17

蓝色光标×火山引擎：用AI实现多模态内容创作自由

2026-01-05

大家都在问

一篇文章讲清楚：到底什么是NotebookLM？除了PPT，它还能做啥？

2025-12-31

GenAI的多模态数据智能平台如何构建？

2025-08-04

本地AI对话神奇，ChatWise到底有什么用？

2025-05-26

什么是基于知识图谱的多模态推理？

2025-05-13

AI数字人领域重大突破：告别拼凑式合成，阿里OmniTalker能否开启音视频一体化新时代？

2025-04-08

Midjourney V7全面测评：50组多风格提示词实测，是否还有领先优势?

2025-04-05

如何结合多模态RAG和异步调用实现大模型内容理解？

2025-03-30

Chat GPT文生图不用DALL·E模型了？

2025-03-26

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean