В этой статье мы поговорим о том, как модели искусственного интеллекта работают, обучаются и развиваются, какие для этого применяются «хитрости» и механизмы, а также какое будущее в ИИ
Введите вопрос в ChatGPT, и ответ материализуется. Введите запрос в DALL-E 3, и появится изображение. Нажмите на страницу TikTok «для вас», и вам покажут видео на ваш вкус. Спросите Siri о погоде, и через мгновение она вам ответит.
Все эти вещи работают на основе моделей искусственного интеллекта (AI). Большинство из них полагаются на нейронную сеть, обученную на огромных объемах информации — текстах, изображениях и т.д. — в соответствии с тем, как они будут использоваться. После многочисленных проб и ошибок параметры связей между моделируемыми нейронами настраиваются на основе этих данных, подобно регулировке миллиардов ручек, пока выход для данного входного сигнала не станет удовлетворительным.
Существует много способов, как можно соединять и располагать нейроны в сети. Различные улучшения в этих подходах позволили исследователям создавать нейронные сети, которые могут обучаться эффективнее и извлекать больше полезной информации из имеющихся данных. Это способствовало значительному прогрессу в сфере искусственного интеллекта в последнее время.
Основное внимание сейчас уделяется двум типам моделей: большим языковым моделям (LLM) для работы с текстом и диффузионным моделям для создания изображений. Эти модели сложнее предыдущих (имеют больше слоев нейронов) и построены так, чтобы быстро обрабатывать большие объемы данных.
Большие языковые модели, такие как GPT, Gemini, Claude и Llama, построены на так называемой архитектуре трансформеров (также трансформаторов). Эта архитектура была представлена в 2017 году Ашишем Васвани и его командой из Google Brain. Основной принцип трансформеров — это «внимание». Слой внимания позволяет модели понять, как различные части входных данных, например, слова, находящиеся на определенном расстоянии друг от друга в тексте, связаны между собой, и учесть эти связи при создании выходных данных.
Несколько слоев внимания, идущих подряд, позволяют модели распознавать связи на разных уровнях — между словами, фразами или даже целыми абзацами. Этот метод хорошо подходит для использования на графических процессорах (GPU), что позволило значительно увеличить масштабы этих моделей. Это, в свою очередь, привело к росту рыночной капитализации компании Nvidia, ведущего производителя графических процессоров в мире.
Учитывая оптимистичное будущее искусственного интеллекта, многие компании пытаются конкурировать с Nvidia. Например, Amazon работает над ИИ-чипами, которые смогут обойти лидера рынка. Это довольно засекреченная разработка, сосредоточенная на снижении зависимости от компании-монополиста.
Известно, что Amazon уже закончила прототипы ускорителей собственного производства. Разработка ведется силами компании Annapurna Labs, которую e-commerce гигант приобрел в 2015 году. Благодаря своим чипам Amazon хочет помочь клиентам вычислять сложные задачи и обрабатывать огромные объемы данных дешевле.
Интересное по теме: Google научит ИИ, распознавать признаки болезней по звукам
Трансформаторные модели могут генерировать как изображение, так и текст. Первая версия DALL-E, выпущенная OpenAI в 2021 году, была трансформатором, который изучал ассоциации между группами пикселей на изображении, а не словами в тексте. В обоих случаях нейросеть переводит то, что она «видит», в числа и выполняет над ними математические (в частности, матричные) операции.
Но у трансформеров есть свои ограничения. Они плохо учатся создавать согласованную модель мира. Например, когда отвечают на вопросы человека, они могут противоречить сами себе с одного ответа на другой, не имея «понимания» того, что первый ответ делает второй нелогичным (или наоборот). Это происходит потому, что они на самом деле не «знают» ни одного из ответов — они просто ассоциируют определенные комбинации (цепочки) слов, которые похожи на ответы.
И как многие теперь знают, трансформационные модели склонны к так называемым «галлюцинациям», когда они придумывают правдоподобные на вид, но неправильные ответы, и цитаты в их подтверждение. Аналогично изображения, созданные ранними трансформаторными моделями, часто нарушали законы физики и были неправдоподобными в других отношениях (что может быть особенностью для некоторых пользователей, но было ошибкой для дизайнеров, которые стремились создавать фотореалистичные изображения). Нужен был другой тип модели.
Более развитые, диффузионные модели ИИ
Диффузионные модели способны создавать гораздо более реалистичные изображения. Их основная идея вдохновлена физическим процессом диффузии. Например, если вы кладете пакетик чая в чашку с горячей водой, чайные листочки начинают завариваться, и цвет чая размывается в прозрачной воде. Через несколько минут жидкость в чашке станет однородного цвета.
Законы физики определяют этот процесс диффузии. Так же, как можно использовать законы физики, чтобы предсказать, как чай растворится в воде, можно попытаться воспроизвести этот процесс в обратном порядке — определить, где и как сначала погрузили пакетик чая. В реальной жизни второй закон термодинамики делает это процессом в одну сторону; невозможно вернуть оригинальный чайный пакетик из чашки. Но научиться моделировать (симулировать) этот процесс в обратном направлении позволяет создавать реалистичные изображения.
Тренировка происходит так. Вы берете изображение и накладываете на него все больше размытия и шума, пока оно не будет выглядеть абсолютно случайным. Затем наступает самая сложная часть: повернуть этот процесс назад, чтобы воссоздать первоначальное изображение. Это делается с помощью «самоконтролирующего обучения», подобно тому, как LLM обучаются на тексте: закрывая слова в предложении и учась предсказывать пропущенные слова путем проб и ошибок.
В случае изображений сеть учится удалять все большее количество шума, чтобы воссоздать оригинальное изображение. Работая с миллиардами изображений, изучая закономерности, необходимые для устранения искажений, сеть приобретает способность создавать совершенно новые изображения из ничего, кроме случайного шума.
Большинство современных систем для генерации изображений используют диффузионные модели, хотя они различаются по способу, которым «удаляют шум» или обратно устраняют искажения. Stable Diffusion (от Stability AI) и Imagen, оба выпущены в 2022 году, использовали вариации архитектуры, называемой сверточной нейронной сетью (CNN). Эта архитектура хорошо подходит для анализа данных в виде сетки, например, рядов и столбцов пикселей.
Фактически, CNN просматривает свои входные данные, двигая небольшими «скользящими окнами» вверх и вниз, чтобы найти конкретные признаки (специфические артефакты), такие как узоры или углы. Но, хотя CNN хорошо работают с пикселями, некоторые из новейших генераторов изображений используют так называемые диффузионные трансформеры, в частности новую модель Stability AI — Stable Diffusion 3. После обучения на диффузии трансформеры значительно лучше понимают, как различные части изображения или кадра видео связаны друг с другом и насколько сильно, что приводит к более реалистичным результатам (хотя они все еще делают ошибки).
Читайте популярное: Эксперты предсказывают, что ИИ сам себя уничтожит
Системы рекомендаций — это совсем другое дело. Редко можно увидеть, как они работают изнутри, поскольку компании, разрабатывающие и использующие алгоритмы рекомендаций, очень тщательно скрывают эти данные. Но в 2019 году компания Meta, тогда еще Facebook, обнародовала детали своей модели рекомендаций на основе глубокого обучения (DLRM). Эта модель имеет три основные части. Сначала она превращает входные данные (такие как возраст пользователя, его предпочтения на платформе или контент, который он потреблял) в так называемые «встраивания». Модель обучается таким образом, чтобы похожие вещи (например, теннис и пинг-понг) находились рядом друг с другом в этом пространстве встраиваний.
Затем DLRM использует нейронную сеть для выполнения процесса, называемого матричным факторизированием. Представьте себе таблицу, где столбцы — это видео, а строки — разные пользователи. Каждая клетка показывает, насколько каждому пользователю нравится каждое видео. Но большинство ячеек в этой таблице пустые. Цель рекомендательной системы — сделать прогнозы для всех пустых ячеек.
Один из способов, которым DLRM может это сделать, — это разделить таблицу (с математической точки зрения, факторизовать матрицу) на две таблицы: одну, содержащую данные о пользователях, и другую, содержащую данные о видео. После этого, комбинируя эти таблицы (или перемножая матрицы) и подавая результаты в другую нейронную сеть для дальнейших вычислений, можно заполнить те ячейки, которые ранее были пустыми, то есть предсказать, насколько каждому пользователю понравится каждое видео.
Такой же подход можно применить к рекламе, песням в стриминговых сервисах, товарам на платформе электронной коммерции и т.д. Технологические компании больше всего интересуются моделями, которые достигают успеха в коммерчески полезных задачах. Но для того, чтобы запускать эти модели в масштабе, нужны огромные финансовые ресурсы, большие объемы данных и колоссальная вычислительная мощность.
Ждем модели 2025 года
В академических кругах, где наборы данных меньше, а бюджеты ограничены, другие виды моделей оказываются более практичными. Сюда входят рекуррентные нейронные сети (для анализа последовательностей данных), вариационные вариационные автокодеры (для выявления закономерностей в данных), генеративные соревновательные сети (где одна модель учится выполнять задачи, постоянно стремясь обмануть другую модель) и графовые нейронные сети (для прогнозирования результатов сложных взаимодействий).
Так же, как глубокие нейронные сети, трансформеры и диффузионные модели прошли путь от исследовательских интересов до широкого применения, принципы и особенности других моделей также будут использованы и включены в будущие модели искусственного интеллекта. Трансформеры очень эффективны, но не ясно, можно ли, увеличивая их масштабы, решить их склонности к «галлюцинациям» и логическим ошибкам во время рассуждений.
Уже сейчас ведется поиск новых, «посттрансформаторных» архитектур, таких как «модели состояний» или «нейро-символический» AI, которые могут преодолеть эти слабости и сделать следующий прорыв. Идеальной была бы такая архитектура, которая сочетала бы внимание с большей способностью к логическому мышлению. Пока ни один человек не знает, как создать такую модель. Возможно, однажды эту задачу выполнит модель искусственного интеллекта.
Ознакомьтесь с другими популярными материалами:
Искусственный интеллект который меняет голос: обзор популярных платформ
ИИ-гигант Midjourney анонсировал новый загадочный проект
Microsoft выпустила новые ИИ-модели, которые превосходят аналоги от Google и OpenAI
По материалам economist.com