OpenAI выпустила Images 2.0 с фокусом на детали и языки

OpenAI официально представила генератор изображений ChatGPT Images 2.0 - преемника DALL‑E и Images 1.0. В компании не стесняются в сравнениях: если предыдущие версии называли "наскальными рисунками" и "античным искусством", то новинку позиционируют как "Ренессанс" и крупнейший скачок в качестве визуального ИИ за всю историю.

Модель работает в двух режимах:

Мгновенный режим - ускоренная и переработанная версия стандартного генератора, доступная всем пользователям ChatGPT и API.

Режим с размышлением - более сложный, доступен только подписчикам Plus, Pro и Business. Он позволяет нейросети искать актуальную информацию в интернете, генерировать несколько связанных изображений по одному промту и перепроверять собственные результаты. Например, модель способна создать многостраничный манга-комикс со сквозными персонажами и развивающимся сюжетом или целый журнальный разворот - без потери согласованности между элементами.

Главное техническое достижение - работа с текстом на изображениях. По утверждению OpenAI, опечатки стали "крайне редким" явлением. Для демонстрации разработчики показали сгенерированное фото миски с рисом, где название модели было прописано на одном единственном крошечном зёрнышке - с идеально читаемыми символами.

Кроме того, модель существенно улучшила мультиязычную поддержку и фотореализм. Она лучше передаёт мелкие несовершенства (пыль, царапины, неравномерное освещение), которые добавляют снимкам правдоподобия, а также стабильно работает с пиксель-артом, кинематографическими кадрами и мангой. В OpenAI особо подчеркнули, что Images 2.0 не просто имитирует стиль, а точно соответствует заданной стилистике - это критически важно для прототипирования игр, создания раскадровок, маркетинговых материалов и разработки визуальных ассетов.

Любопытно, что у сообщества был доступ к ранним версиям модели ещё до официального анонса. Энтузиасты на Reddit и X отслеживали её под кодовыми именами maskingtape-alpha, gaffertape-alpha и packingtape-alpha на платформе Arena AI. Впрочем, утечки показали не только силу модели, но и её слабости: одна из сгенерированных карт мира содержала вымышленные страны вроде "Ciger" и "Mharee", а столица Кении Найроби оказалась на территории Саудовской Аравии.

Релиз Images 2.0 происходит на фоне жёсткой конкуренции. Google ранее обновил вирусный генератор Nano Banana Pro и выпустил Gemini 3, а Anthropic своими агентными моделями (Claude Cowork, Claude Code) заставил OpenAI нервничать. По данным инсайдеров, после восторженной реакции на релизы Google в OpenAI объявили "красный код". Успех нового генератора - не только вопрос технологического престижа, но и часть стратегии перед потенциальным IPO: компания до сих пор далека от прибыльности, а сильный визуальный ИИ может помочь достичь психологической отметки в миллиард еженедельно активных пользователей ChatGPT (сейчас - 900 миллионов)