AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


最强 GPT 免费使用!GPT4O 开启多模态新时代!
发布日期:2024-05-14 12:23:21 浏览次数: 10523

最强 GPT 免费使用!GPT4O 开启多模态新时代!

GPT-4o的出现,让 AI 真正进入了全能时代,而且 OpenAI 宣布所有人免费使用!

不论你是需要写文章、听声音还是看视频,GPT-4o都能满足你的需求。

什么是GPT-4o?

GPT-4o是一款超级AI模型,它不仅能读懂你的文字,还能听懂你的声音,看懂你的图像和视频,然后为你生成各种形式的输出。不管是写文章、听声音还是看视频,GPT-4o都能轻松应对。GPT-4o(“o”代表“全能”)是一种能够处理文本、音频和视频输入,并生成文本、音频和图像输出的综合模型。

背景故事

在GPT-4o问世之前,用户可以通过语音模式与ChatGPT互动,但需要依靠不同的模型分别处理文本、音频和视觉信息。想象一下,你和朋友聊天时,一个人负责听,另一个人负责看,还有一个人负责说,这样的沟通效率可想而知。而现在,GPT-4o把这些能力整合到一个模型中,就像把孙悟空、猪八戒、沙和尚、唐僧的本领融为一体,一个人搞定所有任务,效率大大提升。

全职高手的AI版。 如果你是《全职高手》的粉丝,肯定记得叶修大神,他精通所有职业,面对任何挑战都游刃有余。GPT-4o就像这样的全能选手,不再需要分开处理不同类型的信息,而是能统一、高效地处理一切输入,给你最佳的体验。

抢先体验

现在Plus用户可以直接使用GPT-4o,感受这一全能AI的强大功能。

对于免费用户,GPT-4o也在逐步开放使用中,大家可以保持关注,随时准备迎接这款超级AI的到来!LangGPT 社群的已经有许多小伙伴获得了免费使用资格。点开模型选项时能够看到 GPT-4o 模型即可。

Mac APP多模态原生体验

要原生较好的体验 GPT-4o 的能力可以使用 mac 客户端,OpenAI 已经推出 Mac 上使用的电脑桌面端,但当前需要有使用权限。

官网上没有提供 Mac APP的下载链接,我为大家找找到了 APP 下载链接:

https://t.co/MhliG30zMa

安装好后需要登录 ChatGPT 账号使用

如果账号有桌面端使用权限则可以直接使用,否则就会出现如下提示无法使用。暂时无法使用的朋友耐心等待一下权限开通吧。

各项指标遥遥领先

相比Claude和LLaMA,GPT-4o在各项指标上遥遥领先。无论是处理速度、生成质量,还是对多模态输入的理解能力,GPT-4o都展现出了超凡的实力。尤其在传统基准测试中,GPT-4o在文本处理、推理和编程方面达到了GPT-4 Turbo的性能水平,同时在多语言、音频和视觉能力上设立了新的性能基准。

之前在大模型竞技场的神秘模型 im-also-a-good-gpt2-chatbot 就是 GPT-4o,大家实际体验投票,GPT-4o 遥遥领先!

文字性能遥遥领先,当世最强王者,超过 GPT-4。

视觉理解能力遥遥领先,吊打对手谷歌,性能直接碾压一个数量级。

语音能力再次进化,当世最强,超越谷歌和 OpenAI 自己之前的 Whisper-V3 模型。

GPT 做题家不断进化,做题能力相比 openai  GPT-4 进一步提升,我自己超过我自己,遥遥领先。

上手体验

火箭速度

最大的感受就是快,相比 GPT4 的蜗牛速度快了好几倍

实测应用

画图

提示词:一个面带微笑的卡通邮递员。她面朝前站在白色背景前。

效果:画的图片还是挺不错的。

识图

群友实测识别专辑封面,准确识别

场景融合

这是 OpenAI 官方提供的一个例子,将 OpenAI 的品牌标志打印到杯垫上,对于制作品牌周边来说应该很有趣。官方的演示效果很好,但是我们实际使用下来和演示效果差距较大。

这是我们使用和官方一样的提示词获得的结果

中文能力

众所周知 GPT 的中文能力相比英文能力差距较大,对国内用户来说,中文能力更重要,测试下来发现 GPT 的中文能力和 DALLE-3 类似,在中文上欠缺还是比较大的。

下面让它写一首诗,图中呈现的是乱七八糟的类似中文字符。LangGPT 社群的多位群友使用体验下来评价也是中文能力依然欠佳。

语音能力

上传房东的猫歌曲让其帮忙识别,结果还是使用的对手谷歌的语音服务,ChatGPT 自身的语音能力并没有很好的发挥出来,体验较差。

视频能力

ChatGPT 现在已支持读取视频,可直接上传视频文件。

为了测试其视频理解能力,我上传了如下的一段视频(视频内容是对 gpt-4o 和 gpt-4 进行速度对比。)

让 GPT 总结视频内容,发现 GPT 主要靠音频实现总结,当我希望他从视觉内容中提取总结时,ChatGPT 的做法是提取图片,然后总结图片内容。

提取出来的图片内容漏洞百出,和视频的实际内容完全不符!

发布会释放出来的例子很惊艳,但是实际使用体验和发布会的演示效果相比差距还是很大的,大家理性看待~

最后

今年是多模态技术蓬勃发展的一个重要年份,各种技术不断涌现。OpenAI 在春季发布会上推出的 GPT-4o 令人印象深刻,特别是它的多模态原生能力。相比之下,虽然谷歌的 Gemini 模型也很出色,但 GPT-4o 的表现更加流畅。不过,这个模型也并没有那么可怕。我在实际使用中发现,有些国内的中文模型在多模态能力方面表现更好。具体情况,我将在 5 月 25 日的 AIGC 开发者大会上与大家分享。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

年轻人!来一起搞AI吗?

如果你看见AI对商业世界的变革,欢迎来和我们一起探索~

岗位:销售经理

查看详情

岗位:项目经理

查看详情

岗位:产品经理

查看详情

岗位:测试工程师

查看详情

联系我们

售前咨询
186 6662 7370
产品演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询