GPT-4o引爆多模态生图革命,用嘴改图掀颠覆性浪潮,效果直逼专业创作!

ChatGPT代充2025-03-26 12:54:19305

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

,人工智能领域迎来重大突破,OpenAI发布支持多模态交互的GPT-4o模型,其"用嘴改图"的实时图像生成与编辑功能引发行业震动,用户仅需通过自然语言指令,即可在几秒内实现精准抠图、风格切换、细节优化等复杂操作,彻底颠覆传统修图软件的工作流程,该技术深度融合文本语义理解与视觉生成,通过强化扫描定位与深度神经网络,攻克了多模态维度匹配难题,使图像修改如对话般直接流畅,测试视频显示,模型可细腻驾驭油画、动漫等多元风格,光影效果逼真,甚至能理解"残夏余晖""未来机械"等抽象概念进行艺术创作,业内专家认为,该功能将大幅降低创意设计门槛,广告、影视等领域或成核心应用场景,尽管目前仅支持英文交互且高清输出存在延迟,但其"零基础操作+秒级响应"的优势已对PS等专业工具形成冲击,随着中文版本迭代优化,行业或将面临效率革命与职业生态重构的双重挑战。
谷歌刚更新了多模态,大家体会到了用嘴改图的快乐,火了一波,现在OpenAI紧跟其后,现在也更新出了同样的功能。
这其实,体现出了大家对新的交互模式探索的成果,因为有了非常良好的用户反馈,大家对多模态还是有非常高的期待的!
现在,GPT-4o 将自行完成所有工作,而 DALL·E 3 将会消失。
GPT-4o在图像生成方面到底有哪些优越的表现:
1、文本渲染能力

这是我最关注的一个能力,字体、字号、位置、排版全面可控,从官网给的案例来说,控制的可以说是,非常精确了,图片中的文字,与提示词是完全一致的,并且包括整体的构图。




我专门把提示词改成了中文,想尝试,中文的字体看能否很好的展示出来,效果大家评价吧,我感觉基本看不出来什么瑕疵,光从构图与文本展示,已经很完美了。

这个谷歌就暂时做不到,它还没有办法很好的输出中文字体。


但是最好不要在很小的尺寸生成很密集的文本。

2、语义精准理解

多对象、多关系结构控制,OpenAI 表示,GPT-4o 可以在图像中准确创建多达 20 个不同的物体,而其他系统则很难创建约 5-8 个物体。

这个确实是,物体越多,模型的幻觉就会越大,这是现在的常态。

这个效果真是没话说...插画质量很高,排序完全正确,风格也比较统一,文本全对,没有任何幻觉的产生!
说心里话,感觉效果是比谷歌要好的,感兴趣可以看一下上篇测评~
AI绘画新交互|用嘴改图的时代来了!Gemini 2.0多模态生图功能终于开放啦!

3.上下文连续性

对话过程中自动继承角色风格/前图内容,可以根据上下文内容,去提问,修改图像。可以尝试看看,读取上下文的准确度如何。

经过我们的提示,让他修改的图片中的1个图形,也能精准地识别到进行修改。

多轮修改也是一点问题没有

4、图像写实风格控制

可生成新闻照片、真人摄影感图像,我这里专门拿了一张成龙大哥的国画肖像,没有任何提示说,这是成龙大哥,让他生成摄影照片,这也太逼真了!效果是真的不错!

发型,服装,也都跟国画里的一模一样!

再来一张爽一下,换个画风看看,看看高清版鲁迅!

5、跨模态推理能力

上传图片内容可用于引导图像风格与生成结果,也就是说相当于垫图了。

我感觉主要的点就是文本能够精准投放,语意理解得倒很大提升

我们就能够明显感觉到,控制图片的精度提高了非常多,并且玩法也非常丰富了!

比如玩个四格漫画:制作一张七龙珠与海贼王格斗的四格漫画

设计一张卡片/海报

给产品做一张宣传图
不满意随时改,你就是老板!

参考:
https://www.thurrott.com/a-i/318918/chatgpt-now-supports-image-generation-with-gpt-4o
https://www.investing.com/news/company-news/openai-unveils-gpt4o-for-precise-photorealistic-image-generation-3947625
https://decrypt.co/311563/openai-launches-gpt-4os-new-image-generation-into-chatgpt-showing-unbelievably-better-results
https://openai.com/index/introducing-4o-image-generation/

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

本文链接:https://www.daichong.cc/gpt4_gpt5_1292.html

多模态生图语音改图

相关文章