ChatGPT 4o图像生成功能升级,基础功能免费开放

3月25日,美国开放人工智能研究中心(OpenAI)宣布推出全新4o图像生成功能。OpenAI首席执行官奥特曼评价GPT-4o为“迄今为止最强大的模型”,并表示将全面免费开放基础功能,API调用的成本也将降低50%。

GPT-4o图像生成:更精准、更高效

在周二的直播活动中,奥特曼正式宣布推出基于GPT-4o模型的原生图像生成功能。这意味着 ChatGPT 不再依赖独立的 DALL-E 文生图模型,而是利用 GPT-4o 的多模态能力实现更高效的图片生成。相比以往,ChatGPT 在图像生成方面有了显著提升:

  • 准确遵循用户指令:图像生成可以更严格地遵守用户的需求描述。

  • 精确渲染图像文字:尤其是涉及到图片内的文字内容时,表现更为出色。

  • 角色形象保持一致:多轮迭代优化时,能够维持图像中的角色特征稳定。

官方示例显示,生成黑板板书、科学绘图、印刷字体等图像时,ChatGPT 的文字渲染表现已经接近商用水准。

技术突破与局限性

尽管性能有所突破,OpenAI 仍然承认新图像生成器存在一定的局限性。模型可能由于幻觉效应在密集文字场景和非拉丁语文字的图像生成方面出现问题。用户在使用过程中需注意这一点。

背景与市场压力

ChatGPT最初只能处理文本生成与编辑功能。直到去年,OpenAI推出第三代图像生成模型DALL-E 3,并将其集成至ChatGPT。然而,早期的AI图像生成器在理解用户提示词时表现不佳,这也成为技术发展的瓶颈。

此次GPT-4o的发布,被业内普遍视为是对谷歌 Gemini 等竞品的技术回应。目前,阿里巴巴与谷歌均已推出能够描绘文字的文生图模型。其中,谷歌的 Gemini 2.0 Flash 在社交媒体上备受关注,但其图像输出功能缺乏版权保护措施而备受争议。

OpenAI首席运营官布拉德・莱特卡普则强调:“我们尊重艺术家的权利,并严格执行相关政策,以防止生成直接模仿现存艺术家风格的图像。”

👉 【点击查看】ChatGPT Plus会员代开通优惠渠道整理汇总(全程质保,超稳定!)

使用范围和未来计划

即日起,包括 Plus、Pro、Team 用户在内的 ChatGPT 全部用户群体均可陆续体验该功能,免费用户也将享受到基础功能。此外,企业版与教育版的支持正在推进中,Sora 平台将同时启用这一功能。

而对于开发者,GPT-4o 图像生成功能的 API 调用权限预计将在未来数周内逐步开放。这为企业和研究机构提供了更多灵活的应用场景,并进一步推动人工智能技术在实际业务中的落地。


通过 GPT-4o 模型的图像生成功能,OpenAI 展现了其在人工智能领域的技术实力,并为普通用户、开发者及企业提供了更多选择空间。在竞争激烈的市场中,技术精准度与版权保护的结合或将成为 OpenAI 的一大优势。