Microsoft оголосила про запуск трьох нових ШІ-моделей власної розробки — MAI-Transcribe-1, MAI-Voice-1 та MAI-Image-2. Це перший масштабний крок компанії до повноцінної конкуренції з OpenAI та Google не лише як платформи, а й як розробника моделей

Фото: freepik.com
Нові рішення охоплюють ключові напрямки корпоративного AI: транскрипцію мовлення, генерацію голосу та створення зображень. Усі моделі вже доступні через Microsoft Foundry і нову платформу MAI Playground.
Фокус на ефективності та якості
MAI-Transcribe-1 стала центральним релізом. За даними Microsoft, модель демонструє найнижчий рівень помилок у тесті FLEURS серед 25 найпоширеніших мов, досягаючи показника 3,8%. Вона підтримує популярні аудіоформати та працює у 2,5 раза швидше за попередні рішення компанії.
MAI-Voice-1 відповідає за синтез мовлення. Модель здатна генерувати до 60 секунд реалістичного аудіо всього за одну секунду, зберігаючи індивідуальність голосу навіть у довгих записах. Крім того, вона дозволяє створювати кастомні голоси на основі кількох секунд аудіо.
MAI-Image-2 — нове покоління інструменту для генерації зображень. За словами компанії, вона працює щонайменше вдвічі швидше за попередника та вже інтегрується у Bing і PowerPoint.
Ставка на власну екосистему
Запуск моделей став можливим після перегляду угоди з OpenAI, яка раніше обмежувала Microsoft у самостійній розробці передових AI-систем. Нові умови відкрили компанії шлях до створення власних моделей, зберігаючи при цьому партнерство до 2032 року.
Цікаве по темі: Акції Microsoft показали найгірший старт із часів кризи 2008 року
У Microsoft наголошують, що нові моделі — це лише початок. Компанія планує розвивати власні рішення у всіх ключових AI-напрямках, включно з мовними моделями.
Малі команди — великі результати
Однією з особливостей розробки стала компактність команд. За словами керівника AI-напряму Мустафи Сулеймана, моделі створювалися групами менш ніж із 10 інженерів.
Такий підхід дозволяє значно підвищити ефективність і знизити витрати. Зокрема, Microsoft заявляє, що її моделі працюють на меншій кількості GPU порівняно з конкурентами, що позитивно впливає на економіку продуктів.
Конкуренція через ціну та масштаб
Компанія також робить ставку на агресивну цінову політику. Наприклад, використання MAI-Voice-1 коштує $22 за 1 млн символів, тоді як MAI-Image-2 — $5 за 1 млн токенів тексту та $33 за генерацію зображень.
У Microsoft підкреслюють, що прагнуть стати найдоступнішим AI-провайдером серед великих хмарних гравців, включно з Amazon і Google.
Водночас нові моделі вже інтегруються у продукти компанії — від Copilot і Teams до Bing та PowerPoint. Це дозволяє швидко масштабувати їх використання серед корпоративних клієнтів.
У результаті Microsoft формує власну повноцінну AI-екосистему — від інфраструктури до моделей. І хоча представлені рішення поки що спеціалізовані, компанія чітко сигналізує про намір стати незалежним гравцем у розробці передових AI-систем.
Ознайомтеся з іншими популярними матеріалами:
Intel запустила ШІ-бота на базі Microsoft Copilot
Мінцифри посилює співпрацю з Microsoft
Microsoft інтегрує покупки безпосередньо в Copilot
Джерело: VentureBeat.