Компанія OpenAI інтегрувала нові можливості генерації зображень безпосередньо в ChatGPT — ця функція отримала назву «Зображення в ChatGPT». Тепер користувачі можуть використовувати GPT-4o для створення зображень у самому ChatGPT

OpenAI представила безкоштовний генератор зображень для ChatGPT Фото: freepik.com
Ця функція фокусується виключно на створенні зображень і буде доступна на всіх рівнях підписки ChatGPT Plus, Pro, Team і Free. Як повідомила представниця компанії Тая Крістіансон, ліміт використання безкоштовного рівня такий самий, як і у DALL-E, але додала, що вони «не мають конкретної цифри, якою можна було б поділитися», і «вона може змінюватися з часом в залежності від попиту».
«Ця модель є кроком вперед у порівнянні з попередніми моделями», — сказав керівник дослідження Габріель Го, додавши, що команда використовувала GPT-4o «омнімодальну» — або модель, яка може генерувати будь-які дані, такі як текст, зображення, аудіо та відео — як основу для цієї функції.
Серед удосконалень, які відзначив Го, — «прив’язка», яка стосується того, наскільки добре ШІ-генератори зображень підтримують правильні взаємозв’язки між атрибутами та об’єктами; наприклад, модель з поганою прив’язкою може отримати запит «синя зірка плюс червоний трикутник» і створити червону зірку без трикутника.
Цікаве по темі: OpenAI запустила свою найдорожчу ШІ-модель
За словами Го, більшість моделей зображень борються з цією проблемою, часто змішуючи кольори і форми, коли їх просять відрендерити кілька об’єктів — зазвичай від 5 до 8. Він каже, що цей новий інструмент генерації зображень може правильно зв’язати атрибути для 15-20 об’єктів без плутанини, що є значним покращенням точності та надійності.
Користувачі також помітять поліпшення в рендерингу тексту, що полегшує створення зв’язного тексту без помилок на зображенні (в існуючих інструментах часто можна помітити, що текст досить легко спотворюється). За словами Го, правильний рендеринг тексту був значним викликом. Якщо невеликі заголовки або текстові елементи містять помилки, все зображення може стати непридатним для використання.
«Це було схоже на процес ітерацій, який зайняв багато-багато місяців», — сказав Го.
Він каже, що, хоч і не бездоганно, але команда досягла точки, коли якість тексту є стабільно придатною для використання.
Нова система генерує зображення довше, ніж раніше, але OpenAI вважає, що це виправданий компроміс.
«Хоча нам, безумовно, є куди вдосконалювати затримку… якість цих зображень, можливості, знання світу дійсно компенсують додаткові секунди, які вони витратять на очікування», — сказала Джекі Шеннон, провідна спеціалістка з мультимодальних продуктів ChatGPT.
Ознайомтеся з іншими популярними матеріалами:
Статки Сема Альтмана: наскільки багатий генеральний директор OpenAI
OpenAI планує завершити розробку свого першого ШІ-чипа вже цього року
У OpenAI анонсували вихід GPT-5
Джерело: The Verge.