Midjourney, Dall-E 2 від OpenAI та Stability AI’s Stable Diffusion часто мають проблеми з відтворенням тексту на зображеннях. Однак тепер з’явився молодий стартап Ideogram, який кидає виклик відомим конкурентам. Найголовніше, чим зумів виділитись проєкт, — навчив ШІ створювати зображення з гарно написаним текстом, який можна читати

AI Фото: freepik.com, pngwing.com
Як і його конкуренти, Ideogram може створювати вражаюче реалістичні зображення з коротких текстових підказок за лічені секунди. Але Ideogram, стартап з Торонто, який запустився в серпні, може піти ще далі і відтворювати текст всередині цих зображень.
Наприклад, він може згенерувати зображення протестувальника з розбірливим плакатом або милого котика у футболці, на якій чітко написано: «Запитай мене про мій стартап зі штучним інтелектом».

Зображення, створене різними ШІ, на запит: «фотографія милого кошеняти у футболці з написом “запитай мене про мій стартап зі штучним інтелектом”». За годинниковою стрілкою зліва направо: Ideogram, DALL-E 2 від OpenAI, Midjourney і Stability AI’s Stable Diffusion XL. Фото: bloomberg.com
Вирішення того, що може здатися вузькоспеціалізованою технічною проблемою, має широкі наслідки для індустрії. Інші популярні АІ-генератори зображень, такі як Midjourney, Dall-E 2 від OpenAI та Stability AI від Stable Diffusion, часто показують нісенітницю, коли їх просять відобразити слова в картинках.
Запуск Ideogram має потенціал струснути переповнене поле ШІ-генераторів зображень, а також вказати на наступний етап розвитку цієї технології, що стрімко вдосконалюється.
Слід зазначити, що нова версія Dall-E, яку OpenAI планує випустити в жовтні, наразі доступна через Bing Image Creator від Microsoft, здається, має подібні можливості. OpenAI випустив зображення, на якому пацієнт з авокадо без кісточки каже терапевту ложці: «Я просто відчуваю таку порожнечу всередині». Стабільний ШІ також може представляти текст на зображеннях за допомогою програмного забезпечення під назвою DeepFloyd IF, але воно не є легкодоступним для більшості людей.

Фото, созданное Dall-E
Цікаве по темі: Армія роботів, перспективи ШІ, стартапи: репортаж із львівської ІТ Arena
Команда Ideogram складається з кількох колишніх співробітників Google, які допомагали створювати сервіс для генерації зображень Imagen, що належить технологічному гіганту. Стартап, який залучив $16,5 млн початкового фінансування в раунді, очолюваному Andreessen Horowitz та Index Ventures, зосереджений не лише на створенні зображень з текстом. Ideogram також намагається зробити використання штучного інтелекту більш доступним для будь-кого, щоб створювати переконливі зображення, не друкуючи складні описи.
«Наша мета — зробити так, щоб людям було якомога легше і простіше займатися творчою самореалізацією», — сказав головний виконавчий директор і співзасновник компанії Мохаммад Норузі в інтерв’ю Bloomberg News. За словами Норузі, з моменту запуску безкоштовного сервісу на нього зареєструвалося 1,1 млн людей, які вже створили понад 80 млн зображень (новим користувачам, можливо, доведеться записатися в лист очікування). Користувачі вводять свої команди в Ideogram і сервіс створює відразу чотири зображення.
Також варто зауважити, що завдяки своїм можливостям Ideogram може з часом скласти конкуренцію маркетологам і творчим працівникам. Генеруючи текст і полегшуючи створення різноманітних зображень за допомогою ШІ, стартап також ризикує бути використаним для поширення дезінформації, що ще більше підриває довіру до зображень в інтернеті.
Раніше ми писали про неетичність використання штучного інтелекту, — у соцмережах розгорілися нові запеклі баталії.
Ознайомтеся з іншими популярними матеріалами:
Meta дебютує з функціями генеративного ШІ для рекламодавців
Adobe інтегрує ШІ у Photoshop: запущено вебверсію
YouTube запустив нові функції на основі ШІ
За матеріалами bloomberg.com.