Microsoft представила три нові моделі ШІ

Microsoft оголосила про запуск трьох нових ШІ-моделей власної розробки — MAI-Transcribe-1, MAI-Voice-1 та MAI-Image-2. Це перший масштабний крок компанії до повноцінної конкуренції з OpenAI та Google не лише як платформи, а й як розробника моделей

Фото: freepik.com

Нові рішення охоплюють ключові напрямки корпоративного AI: транскрипцію мовлення, генерацію голосу та створення зображень. Усі моделі вже доступні через Microsoft Foundry і нову платформу MAI Playground.

Фокус на ефективності та якості

MAI-Transcribe-1 стала центральним релізом. За даними Microsoft, модель демонструє найнижчий рівень помилок у тесті FLEURS серед 25 найпоширеніших мов, досягаючи показника 3,8%. Вона підтримує популярні аудіоформати та працює у 2,5 раза швидше за попередні рішення компанії.

MAI-Voice-1 відповідає за синтез мовлення. Модель здатна генерувати до 60 секунд реалістичного аудіо всього за одну секунду, зберігаючи індивідуальність голосу навіть у довгих записах. Крім того, вона дозволяє створювати кастомні голоси на основі кількох секунд аудіо.

MAI-Image-2 — нове покоління інструменту для генерації зображень. За словами компанії, вона працює щонайменше вдвічі швидше за попередника та вже інтегрується у Bing і PowerPoint.

Ставка на власну екосистему

Запуск моделей став можливим після перегляду угоди з OpenAI, яка раніше обмежувала Microsoft у самостійній розробці передових AI-систем. Нові умови відкрили компанії шлях до створення власних моделей, зберігаючи при цьому партнерство до 2032 року.

Цікаве по темі: Акції Microsoft показали найгірший старт із часів кризи 2008 року

У Microsoft наголошують, що нові моделі — це лише початок. Компанія планує розвивати власні рішення у всіх ключових AI-напрямках, включно з мовними моделями.

Малі команди — великі результати

Однією з особливостей розробки стала компактність команд. За словами керівника AI-напряму Мустафи Сулеймана, моделі створювалися групами менш ніж із 10 інженерів.

Такий підхід дозволяє значно підвищити ефективність і знизити витрати. Зокрема, Microsoft заявляє, що її моделі працюють на меншій кількості GPU порівняно з конкурентами, що позитивно впливає на економіку продуктів.

Конкуренція через ціну та масштаб

Компанія також робить ставку на агресивну цінову політику. Наприклад, використання MAI-Voice-1 коштує $22 за 1 млн символів, тоді як MAI-Image-2 — $5 за 1 млн токенів тексту та $33 за генерацію зображень.

У Microsoft підкреслюють, що прагнуть стати найдоступнішим AI-провайдером серед великих хмарних гравців, включно з Amazon і Google.

Водночас нові моделі вже інтегруються у продукти компанії — від Copilot і Teams до Bing та PowerPoint. Це дозволяє швидко масштабувати їх використання серед корпоративних клієнтів.

У результаті Microsoft формує власну повноцінну AI-екосистему — від інфраструктури до моделей. І хоча представлені рішення поки що спеціалізовані, компанія чітко сигналізує про намір стати незалежним гравцем у розробці передових AI-систем.

Ознайомтеся з іншими популярними матеріалами:

Intel запустила ШІ-бота на базі Microsoft Copilot

Мінцифри посилює співпрацю з Microsoft

Microsoft інтегрує покупки безпосередньо в Copilot

Джерело: VentureBeat.