ШІ навчився писати текст на зображеннях: фото

Midjourney, Dall-E 2 від OpenAI та Stability AI’s Stable Diffusion часто мають проблеми з відтворенням тексту на зображеннях. Однак тепер з’явився молодий стартап Ideogram, який кидає виклик відомим конкурентам. Найголовніше, чим зумів виділитись проєкт, — навчив ШІ створювати зображення з гарно написаним текстом, який можна читати

AI Фото: freepik.com, pngwing.com

Як і його конкуренти, Ideogram може створювати вражаюче реалістичні зображення з коротких текстових підказок за лічені секунди. Але Ideogram, стартап з Торонто, який запустився в серпні, може піти ще далі і відтворювати текст всередині цих зображень.

Наприклад, він може згенерувати зображення протестувальника з розбірливим плакатом або милого котика у футболці, на якій чітко написано: «Запитай мене про мій стартап зі штучним інтелектом».

Зображення, створене різними ШІ, на запит: «фотографія милого кошеняти у футболці з написом “запитай мене про мій стартап зі штучним інтелектом”». За годинниковою стрілкою зліва направо: Ideogram, DALL-E 2 від OpenAI, Midjourney і Stability AI’s Stable Diffusion XL. Фото: bloomberg.com

Вирішення того, що може здатися вузькоспеціалізованою технічною проблемою, має широкі наслідки для індустрії. Інші популярні АІ-генератори зображень, такі як Midjourney, Dall-E 2 від OpenAI та Stability AI від Stable Diffusion, часто показують нісенітницю, коли їх просять відобразити слова в картинках.

Запуск Ideogram має потенціал струснути переповнене поле ШІ-генераторів зображень, а також вказати на наступний етап розвитку цієї технології, що стрімко вдосконалюється.

Слід зазначити, що нова версія Dall-E, яку OpenAI планує випустити в жовтні, наразі доступна через Bing Image Creator від Microsoft, здається, має подібні можливості. OpenAI випустив зображення, на якому пацієнт з авокадо без кісточки каже терапевту ложці: «Я просто відчуваю таку порожнечу всередині». Стабільний ШІ також може представляти текст на зображеннях за допомогою програмного забезпечення під назвою DeepFloyd IF, але воно не є легкодоступним для більшості людей.

Фото, созданное Dall-E

Цікаве по темі: Армія роботів, перспективи ШІ, стартапи: репортаж із львівської ІТ Arena

Команда Ideogram складається з кількох колишніх співробітників Google, які допомагали створювати сервіс для генерації зображень Imagen, що належить технологічному гіганту. Стартап, який залучив $16,5 млн початкового фінансування в раунді, очолюваному Andreessen Horowitz та Index Ventures, зосереджений не лише на створенні зображень з текстом. Ideogram також намагається зробити використання штучного інтелекту більш доступним для будь-кого, щоб створювати переконливі зображення, не друкуючи складні описи.

«Наша мета — зробити так, щоб людям було якомога легше і простіше займатися творчою самореалізацією», — сказав головний виконавчий директор і співзасновник компанії Мохаммад Норузі в інтерв’ю Bloomberg News. За словами Норузі, з моменту запуску безкоштовного сервісу на нього зареєструвалося 1,1 млн людей, які вже створили понад 80 млн зображень (новим користувачам, можливо, доведеться записатися в лист очікування). Користувачі вводять свої команди в Ideogram і сервіс створює відразу чотири зображення.

Також варто зауважити, що завдяки своїм можливостям Ideogram може з часом скласти конкуренцію маркетологам і творчим працівникам. Генеруючи текст і полегшуючи створення різноманітних зображень за допомогою ШІ, стартап також ризикує бути використаним для поширення дезінформації, що ще більше підриває довіру до зображень в інтернеті.

Раніше ми писали про неетичність використання штучного інтелекту, — у соцмережах розгорілися нові запеклі баталії.

Ознайомтеся з іншими популярними матеріалами:

Meta дебютує з функціями генеративного ШІ для рекламодавців

Adobe інтегрує ШІ у Photoshop: запущено вебверсію

YouTube запустив нові функції на основі ШІ

За матеріалами bloomberg.com.

ШІ навчився писати текст на зображеннях: фото

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Українську LLM тренуватимуть на моделі Gemma від Google

OpenAI може додати рекламу в ChatGPT

Нова пошта доручила перевірку відділень штучному інтелекту

OpenAI додала нову функцію у ChatGPT

Кійосакі попереджає про обвал двох секторів через ШІ

Ще 10 днів щоб стати фінтех-легендою: Чорна п’ятниця PSM Awards

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у жовтні 2025 — аналітика

Держборг України зріс майже на $3 млрд — Мінфін

Скільки б ви отримали, якби інвестували $1000 в срібло на початку 2025

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Скільки грошей українці інвестували в ОВДП у 2025 — Мінфін

Продуктивність праці в Україні у 3-5 разів нижча, ніж у ЄС — Гетманцев

Sony розробляє власний стейблкоїн

Які зміни відбулись у небанківському фінансовому секторі України у 2025

ШІ навчився писати текст на зображеннях: фото

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Українську LLM тренуватимуть на моделі Gemma від Google

OpenAI може додати рекламу в ChatGPT

Нова пошта доручила перевірку відділень штучному інтелекту

OpenAI додала нову функцію у ChatGPT

Кійосакі попереджає про обвал двох секторів через ШІ

Ще 10 днів щоб стати фінтех-легендою: Чорна п’ятниця PSM Awards

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у жовтні 2025 — аналітика

Держборг України зріс майже на $3 млрд — Мінфін

Скільки б ви отримали, якби інвестували $1000 в срібло на початку 2025

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Скільки грошей українці інвестували в ОВДП у 2025 — Мінфін

Продуктивність праці в Україні у 3-5 разів нижча, ніж у ЄС — Гетманцев

Sony розробляє власний стейблкоїн

Які зміни відбулись у небанківському фінансовому секторі України у 2025

Хочу отримувати: