Open AI发布GPT-4o图像模型

上周,Open AI 大概率是为了“狙击”一众模型更新,发布了 4o 的图像生成模型。还真没想到,给它“狙击”到了。直接把 AI 图像生成的可控性,提高到了一个大家都意料之外的高度。

右侧为 Open AI 生成图片样例,虽有明显错别字,但整体质量确实很高。

(提示词:为鱼香肉丝创建一个分步食谱信息图,要求:采用俯视视角在白色背景上呈现极简风格,顶部是标题“鱼香肉丝的制作方法”包含标注好的食材照片,如:200克猪里脊、半根胡萝卜、1/3根青椒、蒜末、姜末、豆瓣酱、酱油、糖、醋、水淀粉使用虚线连接代表制作步骤的图标(如:切丝图、调汁图、翻炒图)信息图底部展示成品图)

除了基础能力很强以外,还有一些其他特性

⚫️可将精确符号与图像融合,使图像成为视觉传达工具。

⚫️可通过自然对话来持续优化图像。GPT-4o 能够基于聊天上下文中的图像和文本进行创作,确保整体一致性。

⚫️可遵循提示,注重细节。可以处理多达 10-20 个不同对象(行业平均水平为 5-8个)。

⚫️可分析并学习用户上传的图片,自动整合细节,并可参与上下文,指导图像生成。

⚫️原生图像生成功能使 4o 能够将其知识在文本和图像之间建立联系,从而打造出一个感觉更智能、更高效的模型。

当然 Open AI 自己也指出了一些 4o 图片生成的可进步之处(如右侧 Open AI 生成图片中能看到明显的字体错误,以及幻觉问题):

⚫️会出现生成图像被剪裁的情况。
⚫️在生成图像的时候会有幻觉。
⚫️可能难以同时准确呈现超过10-20 个不同的概念,例如元素周期表。
⚫️无法实现精确的图表绘制。
⚫️在处理非拉丁语系时有时会遇到困难,字符可能不准确或出现幻觉。
⚫️针对特定部分(如错别字)的编辑请求并不总是有效,有时还会引入更多错误。
⚫️模型不足以在非常小的尺寸上呈现细节信息。

虽然 OpenAI 已将 ChatGPT 这一原生 AI 图像生成功能向免费用户开放,但并没有透露 4o 图像模型的具体架构,只说了这是一个自回归模型。

最近大家应该也被各种 4o 的图片生成玩法刷屏了,特别是“吉卜力风格”,各种内容出圈之后 Open AI 又开始紧急限制,整个模型的生成速度、生成质量、稳定性,一落千丈。

信息来源:

https://openai.com/index/introducing-4o-image-generation

本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。

本文链接:https://www.ttxsai.com/news/3383.html

滚动至顶部