微信扫码
添加专属顾问
我要投稿
Google Gemini 2.0的革命性图像编辑技术,让你用文字轻松操控图片。 核心内容: 1. Gemini 2.0 Flash Experimental的多模态编辑能力 2. 实际案例展示:用文本指令编辑图片和视频分析 3. 使用方法及个人背景介绍,AI赋能传统行业
google昨天更新了Gemini 2.0 Flash Experimental ,他多模态大幅提升,一句话总结:它能够用语言对一张图持续编辑调整,而且风格能够保持一致,图像不会产品畸变。Google AI Studio的产品经理宣布了他们还可以直接对视频链接进行对话分析。
下面我测试了一些case,从效果上看确实很惊艳了,能够持续对一张图片做更改,而且还可以直接输入视频链接,识别链接中的视频讲什么内容。
上传一张美女照片,然给给指令,第一次生成的项链不是珍珠项链,接着给新的指令,项链改成白色珍珠,效果非常棒!
那么是不是,可以把两张照片组合起来,例如产品实物图,佩戴再模特身上,这效果绝了!!
可以准确识别两张图片,并且按照输入的要求组合起来,我只是提了一个要求:将第一张图中的项链佩戴到第二张图中的女孩脖子上。这直接抢p图的饭碗啊!
在油管上找了一个google AdSense 网站审批视频的教材链接,直接喂给Gemini,他花了一分钟总结了这个视频在讲什么。
为了测试是不是真的理解视频,而不是只提取了音轨。我又继续问:视频中出现了几个人,他们穿的什么衣服? 回答结果非常准确!可以看出他确实理解了视频中的内容。
进入google aistudio,但需要有一个美国的ip,而且不是家宽,否则无法打开。地址如下:
https://aistudio.google.com/
选择Gemini 2.0 Flash Experimental,并且将输出格式选择为Images and text
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-11
Qwen3-Omni新升级:声形意合,令出智随!
2025-12-11
首发实测智谱 GLM-TTS:3秒克隆我的声音,连「哎等等这bug怎么回事」都学会了
2025-12-11
硅基流动上线智谱视觉模型 GLM-4.6V
2025-12-11
GLM-TTS技术报告:基于多奖励强化学习的可控发音语音合成
2025-12-11
Qwen3-TTS全面升级:声情并茂,语通八方
2025-12-09
Ming-Flash-Omni 音视图文全模态技术报告解读 —— 一为全,全为一
2025-12-07
阿里 Qwen3-TTS 全新上线!支持9种方言+49种音色,连天津味儿都拿捏了!
2025-12-06
微软又上大分!刚刚开源一款 0.5B 轻量级实时 TTS 模型,还能边想边说!
2025-09-19
2025-11-10
2025-10-22
2025-10-31
2025-09-25
2025-12-06
2025-09-17
2025-11-03
2025-12-07
2025-11-19
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30
2025-03-26
2025-03-05