close-btn

Як ШІ-моделі функціонують за лаштунками та стають розумнішими

У цій статті ми поговоримо про те, як моделі штучного інтелекту працюють, навчаються та розвиваються, які для цього застосовуються «хитрощі» та механізми, а також яке майбутнє у ШІ

Як ШІ-моделі функціонують за лаштунками та стають розумнішими

Як ШІ-моделі функціонують за лаштунками та стають розумнішими Фото: freepik.com

Введіть запитання в ChatGPT, і відповідь матеріалізується. Введіть запит у DALL-E 3, і з’явиться зображення. Натисніть на сторінку TikTok «для вас», і вам покажуть відео на ваш смак. Запитайте Siri про погоду, і за мить вона вам відповість.

Усі ці речі працюють на основі моделей штучного інтелекту (AI). Більшість з них покладаються на нейронну мережу, навчену на величезних обсягах інформації — текстах, зображеннях тощо — відповідно до того, як вони будуть використовуватися. Через численні спроби та помилки налаштовуються параметри зв’язків між модельованими нейронами на основі цих даних, подібно до регулювання мільярдів ручок, поки вихід для даного вхідного сигналу не стане задовільним.

Існує багато способів, як можна з’єднувати та розташовувати нейрони в мережі. Різні вдосконалення в цих підходах дозволили дослідникам створювати нейронні мережі, які можуть навчатися ефективніше і витягувати більше корисної інформації з наявних даних. Це сприяло значному прогресу в сфері штучного інтелекту останнім часом.

Основна увага зараз приділяється двом типам моделей: великим мовним моделям (LLM) для роботи з текстом і дифузійним моделям для створення зображень. Ці моделі складніші за попередні (мають більше шарів нейронів) і побудовані так, щоб швидко обробляти великі обсяги даних.

Великі мовні моделі, такі як GPT, Gemini, Claude та Llama, побудовані на так званій архітектурі трансформерів (також трансформаторів). Ця архітектура була представлена у 2017 році Ашишем Васвані та його командою з Google Brain. Основний принцип трансформерів — це «увага». Шар уваги дозволяє моделі зрозуміти, як різні частини вхідних даних, наприклад, слова, що знаходяться на певній відстані одне від одного в тексті, пов’язані між собою, і врахувати ці зв’язки при створенні вихідних даних.

Кілька шарів уваги, що йдуть підряд, дозволяють моделі розпізнавати зв’язки на різних рівнях — між словами, фразами або навіть цілими абзацами. Цей метод добре підходить для використання на графічних процесорах (GPU), що дозволило значно збільшити масштаби цих моделей. Це, своєю чергою, призвело до зростання ринкової капіталізації компанії Nvidia, провідного виробника графічних процесорів у світі.

Враховуючи оптимістичне майбутнє штучного інтелекту, багато компаній намагаються конкурувати з Nvidia. Наприклад, Amazon працює над ШІ-чипами, які зможуть обійти лідера ринку. Це досить засекречена розробка, зосереджена на знижені залежності від компанії-монополіста.

Відомо, що Amazon вже закінчила прототипи прискорювачів власного виробництва. Розробка ведеться силами компанії Annapurna Labs, яку e-commerce гігант придбав у 2015 році. Завдяки своїм чипам Amazon хоче допомогти клієнтам обчислювати складні задачі та обробляти величезні обсяги даних дешевше.

Цікаве по темі: Google навчить ШІ, розпізнавати ознаки хвороб за звуками

Трансформаторні моделі можуть генерувати як зображення, так і текст. Перша версія DALL-E, випущена OpenAI у 2021 році, була трансформатором, який вивчав асоціації між групами пікселів на зображенні, а не словами в тексті. В обох випадках нейромережа переводить те, що вона «бачить», у числа і виконує над ними математичні (зокрема, матричні) операції.

Але у трансформерів є свої обмеження. Вони погано вчаться створювати узгоджену модель світу. Наприклад, коли відповідають на запитання людини, вони можуть суперечити самі собі з однієї відповіді на іншу, не маючи «розуміння» того, що перша відповідь робить другу нелогічною (або навпаки). Це відбувається тому, що вони насправді не «знають» жодної з відповідей — вони просто асоціюють певні комбінації (ланцюжки) слів, які схожі на відповіді.

І як багато хто тепер знає, трансформаційні моделі схильні до так званих «галюцинацій», коли вони вигадують правдоподібні на вигляд, але неправильні відповіді, і цитати на їх підтвердження. Аналогічно зображення, створені ранніми трансформаторними моделями, часто порушували закони фізики і були неправдоподібними в інших відношеннях (що може бути особливістю для деяких користувачів, але було помилкою для дизайнерів, які прагнули створювати фотореалістичні зображення). Потрібен був інший тип моделі.

Як ШІ-моделі функціонують за лаштунками та стають розумнішими

Як ШІ-моделі функціонують за лаштунками та стають розумнішими Фото: freepik.com

Більш розвинуті, дифузійні моделі ШІ

Дифузійні моделі здатні створювати набагато реалістичніші зображення. Їхня основна ідея натхненна фізичним процесом дифузії. Наприклад, якщо ви кладете пакетик чаю в чашку з гарячою водою, чайні листочки починають заварюватися, і колір чаю розмивається у прозорій воді. Через кілька хвилин рідина в чашці стане однорідного кольору.

Закони фізики визначають цей процес дифузії. Так само, як можна використовувати закони фізики, щоб передбачити, як чай розчиниться у воді, можна спробувати відтворити цей процес у зворотному порядку — визначити, де і як спочатку занурили пакетик чаю. У реальному житті другий закон термодинаміки робить це процесом в один бік; неможливо повернути оригінальний чайний пакетик з чашки. Але навчитися моделювати (симулювати) цей процес у зворотному напрямку дозволяє створювати реалістичні зображення.

Тренування відбувається так. Ви берете зображення і накладаєте на нього все більше розмиття та шуму, доки воно не буде виглядати абсолютно випадковим. Потім настає найскладніша частина: повернути цей процес назад, щоб відтворити початкове зображення. Це робиться за допомогою «самоконтролюючого навчання», подібно до того, як LLM навчаються на тексті: закриваючи слова в реченні і навчаючись передбачати пропущені слова шляхом спроб і помилок.

У випадку зображень мережа вчиться видаляти все більшу кількість шуму, щоб відтворити оригінальне зображення. Працюючи з мільярдами зображень, вивчаючи закономірності, необхідні для усунення спотворень, мережа набуває здатності створювати абсолютно нові зображення з нічого, окрім випадкового шуму.

Більшість сучасних систем для генерації зображень використовують дифузійні моделі, хоча вони різняться за способом, яким «видаляють шум» або зворотно усувають спотворення. Stable Diffusion (від Stability AI) та Imagen, обидві випущені у 2022 році, використовували варіації архітектури, яку називають згортковою нейронною мережею (CNN). Ця архітектура добре підходить для аналізу даних у вигляді сітки, наприклад, рядів і стовпців пікселів.

Фактично, CNN переглядає свої вхідні дані, рухаючи невеликими «ковзними вікнами» вгору і вниз, щоб знайти конкретні ознаки (специфічні артефакти), як-от візерунки чи кути. Але, хоча CNN добре працюють із пікселями, деякі з найновіших генераторів зображень використовують так звані дифузійні трансформери, зокрема нову модель Stability AI — Stable Diffusion 3. Після навчання на дифузії трансформери значно краще розуміють, як різні частини зображення або кадру відео пов’язані одна з одною і наскільки сильно, що призводить до більш реалістичних результатів (хоча вони все ще роблять помилки).

Читайте популярне: Експерти пророкують, що ШІ сам себе знищить

Системи рекомендацій — це зовсім інша справа. Рідко можна побачити, як вони працюють зсередини, оскільки компанії, що розробляють і використовують алгоритми рекомендацій, дуже ретельно приховують ці дані. Але у 2019 році компанія Meta, тоді ще Facebook, оприлюднила деталі своєї моделі рекомендацій на основі глибокого навчання (DLRM). Ця модель має три основні частини. Спочатку вона перетворює вхідні дані (такі як вік користувача, його вподобання на платформі або контент, який він споживав) у так звані «вбудовування». Модель навчається таким чином, щоб схожі речі (наприклад, теніс і пінг-понг) знаходилися поруч одна з одною у цьому просторі вбудовувань.

Далі DLRM використовує нейронну мережу для виконання процесу, який називається матричним факторизуванням. Уявіть собі таблицю, де стовпці — це відео, а рядки — різні користувачі. Кожна клітинка показує, наскільки кожному користувачеві подобається кожне відео. Але більшість клітинок у цій таблиці порожні. Мета рекомендаційної системи — зробити прогнози для всіх порожніх клітинок.

Один із способів, яким DLRM може це зробити, — це розділити таблицю (з математичної точки зору, факторизувати матрицю) на дві таблиці: одну, що містить дані про користувачів, та іншу, що містить дані про відео. Після цього, комбінуючи ці таблиці (або перемножуючи матриці) та подаючи результати в іншу нейронну мережу для подальших обчислень, можна заповнити ті клітинки, які раніше були порожніми, тобто передбачити, наскільки кожному користувачеві сподобається кожне відео.

Такий самий підхід можна застосувати до реклами, пісень у стрімінгових сервісах, товарів на платформі електронної комерції тощо. Технологічні компанії найбільше цікавляться моделями, які досягають успіху в комерційно корисних завданнях. Але для того, щоб запускати ці моделі в масштабі, потрібні величезні фінансові ресурси, великі обсяги даних і колосальна обчислювальна потужність.

Чекаємо моделі 2025 року

В академічних колах, де набори даних менші, а бюджети обмежені, інші види моделей виявляються більш практичними. Сюди входять рекурентні нейронні мережі (для аналізу послідовностей даних), варіаційні варіаційні автокодери (для виявлення закономірностей у даних), генеративні змагальні мережі (де одна модель навчається виконувати завдання, постійно прагнучи обдурити іншу модель) і графові нейронні мережі (для прогнозування результатів складних взаємодій).

Так само, як глибокі нейронні мережі, трансформери та дифузійні моделі пройшли шлях від дослідницьких цікавостей до широкого застосування, принципи та особливості інших моделей також будуть використані та включені в майбутні моделі штучного інтелекту. Трансформери є дуже ефективними, але не ясно, чи можна, збільшуючи їх масштаби, вирішити їхні схильності до «галюцинацій» та логічних помилок під час міркувань.

Уже зараз ведеться пошук нових, «посттрансформаторних» архітектур, таких як «моделі станів» або «нейро-символічний» AI, які можуть подолати ці слабкості та зробити наступний прорив. Ідеальною була б така архітектура, яка поєднувала б увагу з більшою здатністю до логічного мислення. Наразі жодна людина не знає, як створити таку модель. Можливо, одного дня це завдання виконає модель штучного інтелекту.

Ознайомтеся з іншими популярними матеріалами:

Штучний інтелект який змінює голос: огляд популярних платформ

ШІ-гігант Midjourney анонсував новий загадковий проєкт

Microsoft випустила нові ШІ-моделі, які перевершують аналоги від Google та OpenAI

За матеріалами economist.com.

google news
credit link image