我要投稿

最强 GPT 免费使用！GPT4O 开启多模态新时代！

发布日期：2024-05-14 12:23:21 浏览次数： 14385

作者：云中江树

微信搜一搜，关注“云中江树”

最强 GPT 免费使用！GPT4O 开启多模态新时代！

GPT-4o的出现，让 AI 真正进入了全能时代，而且 OpenAI 宣布所有人免费使用！

不论你是需要写文章、听声音还是看视频，GPT-4o都能满足你的需求。

什么是GPT-4o？

GPT-4o是一款超级AI模型，它不仅能读懂你的文字，还能听懂你的声音，看懂你的图像和视频，然后为你生成各种形式的输出。不管是写文章、听声音还是看视频，GPT-4o都能轻松应对。GPT-4o（“o”代表“全能”）是一种能够处理文本、音频和视频输入，并生成文本、音频和图像输出的综合模型。

背景故事

在GPT-4o问世之前，用户可以通过语音模式与ChatGPT互动，但需要依靠不同的模型分别处理文本、音频和视觉信息。想象一下，你和朋友聊天时，一个人负责听，另一个人负责看，还有一个人负责说，这样的沟通效率可想而知。而现在，GPT-4o把这些能力整合到一个模型中，就像把孙悟空、猪八戒、沙和尚、唐僧的本领融为一体，一个人搞定所有任务，效率大大提升。

全职高手的AI版。 如果你是《全职高手》的粉丝，肯定记得叶修大神，他精通所有职业，面对任何挑战都游刃有余。GPT-4o就像这样的全能选手，不再需要分开处理不同类型的信息，而是能统一、高效地处理一切输入，给你最佳的体验。

抢先体验

现在Plus用户可以直接使用GPT-4o，感受这一全能AI的强大功能。

对于免费用户，GPT-4o也在逐步开放使用中，大家可以保持关注，随时准备迎接这款超级AI的到来！LangGPT 社群的已经有许多小伙伴获得了免费使用资格。点开模型选项时能够看到 GPT-4o 模型即可。

Mac APP多模态原生体验

要原生较好的体验 GPT-4o 的能力可以使用 mac 客户端，OpenAI 已经推出 Mac 上使用的电脑桌面端，但当前需要有使用权限。

官网上没有提供 Mac APP的下载链接，我为大家找找到了 APP 下载链接：

https://t.co/MhliG30zMa

安装好后需要登录 ChatGPT 账号使用

如果账号有桌面端使用权限则可以直接使用，否则就会出现如下提示无法使用。暂时无法使用的朋友耐心等待一下权限开通吧。

各项指标遥遥领先

相比Claude和LLaMA，GPT-4o在各项指标上遥遥领先。无论是处理速度、生成质量，还是对多模态输入的理解能力，GPT-4o都展现出了超凡的实力。尤其在传统基准测试中，GPT-4o在文本处理、推理和编程方面达到了GPT-4 Turbo的性能水平，同时在多语言、音频和视觉能力上设立了新的性能基准。

之前在大模型竞技场的神秘模型 im-also-a-good-gpt2-chatbot 就是 GPT-4o，大家实际体验投票，GPT-4o 遥遥领先！

文字性能遥遥领先，当世最强王者，超过 GPT-4。

视觉理解能力遥遥领先，吊打对手谷歌，性能直接碾压一个数量级。

语音能力再次进化，当世最强，超越谷歌和 OpenAI 自己之前的 Whisper-V3 模型。

GPT 做题家不断进化，做题能力相比 openai GPT-4 进一步提升，我自己超过我自己，遥遥领先。

上手体验

火箭速度

最大的感受就是快，相比 GPT4 的蜗牛速度快了好几倍

实测应用

画图

提示词：一个面带微笑的卡通邮递员。她面朝前站在白色背景前。

效果：画的图片还是挺不错的。

识图

群友实测识别专辑封面，准确识别

场景融合

这是 OpenAI 官方提供的一个例子，将 OpenAI 的品牌标志打印到杯垫上，对于制作品牌周边来说应该很有趣。官方的演示效果很好，但是我们实际使用下来和演示效果差距较大。

这是我们使用和官方一样的提示词获得的结果

中文能力

众所周知 GPT 的中文能力相比英文能力差距较大，对国内用户来说，中文能力更重要，测试下来发现 GPT 的中文能力和 DALLE-3 类似，在中文上欠缺还是比较大的。

下面让它写一首诗，图中呈现的是乱七八糟的类似中文字符。LangGPT 社群的多位群友使用体验下来评价也是中文能力依然欠佳。

语音能力

上传房东的猫歌曲让其帮忙识别，结果还是使用的对手谷歌的语音服务，ChatGPT 自身的语音能力并没有很好的发挥出来，体验较差。

视频能力

ChatGPT 现在已支持读取视频，可直接上传视频文件。

为了测试其视频理解能力，我上传了如下的一段视频（视频内容是对 gpt-4o 和 gpt-4 进行速度对比。）

让 GPT 总结视频内容，发现 GPT 主要靠音频实现总结，当我希望他从视觉内容中提取总结时，ChatGPT 的做法是提取图片，然后总结图片内容。

提取出来的图片内容漏洞百出，和视频的实际内容完全不符！

发布会释放出来的例子很惊艳，但是实际使用体验和发布会的演示效果相比差距还是很大的，大家理性看待～

最后

今年是多模态技术蓬勃发展的一个重要年份，各种技术不断涌现。OpenAI 在春季发布会上推出的 GPT-4o 令人印象深刻，特别是它的多模态原生能力。相比之下，虽然谷歌的 Gemini 模型也很出色，但 GPT-4o 的表现更加流畅。不过，这个模型也并没有那么可怕。我在实际使用中发现，有些国内的中文模型在多模态能力方面表现更好。具体情况，我将在 5 月 25 日的 AIGC 开发者大会上与大家分享。