Компания OpenAI интегрировала новые возможности генерации изображений непосредственно в ChatGPT — эта функция получила название «Изображения в ChatGPT». Теперь пользователи могут использовать GPT-4o для создания изображений в самом ChatGPT

OpenAI представила бесплатный генератор изображений для ChatGPT Фото: freepik.com
Эта функция фокусируется исключительно на создании изображений и будет доступна на всех уровнях подписки ChatGPT Plus, Pro, Team и Free. Как сообщила представитель компании Тая Кристиансон, лимит использования бесплатного уровня такой же, как и у DALL-E, но добавила, что они «не имеют конкретной цифры, которой можно было бы поделиться», и «она может меняться со временем в зависимости от спроса».
«Эта модель является шагом вперед по сравнению с предыдущими моделями», — сказал руководитель исследования Габриэль Го, добавив, что команда использовала GPT-4o «омнимодальную» — или модель, которая может генерировать любые данные, такие как текст, изображения, аудио и видео — как основу для этой функции.
Среди усовершенствований, которые отметил Го, — «привязка», которая касается того, насколько хорошо ИИ-генераторы изображений поддерживают правильные взаимосвязи между атрибутами и объектами; например, модель с плохой привязкой может получить запрос «синяя звезда плюс красный треугольник» и создать красную звезду без треугольника.
Интересное по теме: OpenAI запустила свою самую дорогую ИИ-модель
По словам Го, большинство моделей изображений борются с этой проблемой, часто смешивая цвета и формы, когда их просят отрендерить несколько объектов — обычно от 5 до 8. Он говорит, что этот новый инструмент генерации изображений может правильно связать атрибуты для 15-20 объектов без путаницы, что является значительным улучшением точности и надежности.
Пользователи также заметят улучшения в рендеринге текста, что облегчает создание связного текста без ошибок на изображении (в существующих инструментах часто можно заметить, что текст довольно легко искажается). По словам Го, правильный рендеринг текста был значительным вызовом. Если небольшие заголовки или текстовые элементы содержат ошибки, все изображение может стать непригодным для использования.
«Это было похоже на процесс итераций, который занял много-много месяцев», — сказал Го.
Он говорит, что, хоть и не безупречно, но команда достигла точки, когда качество текста является стабильно пригодным для использования.
Новая система генерирует изображения дольше, чем раньше, но OpenAI считает, что это оправданный компромисс.
«Хотя нам, безусловно, есть куда совершенствовать задержку … качество этих изображений, возможности, знания мира действительно компенсируют дополнительные секунды, которые они потратят на ожидание», — сказала Джеки Шеннон, ведущий специалист по мультимодальным продуктам ChatGPT.
Ознакомьтесь с другими популярными материалами:
Состояние Сэма Альтмана: насколько богат генеральный директор OpenAI
OpenAI планирует завершить разработку своего первого ИИ-чипа уже в этом году
В OpenAI анонсировали выход GPT-5
Источник: The Verge.