Google активно работает над развитием как программного обеспечения, так и аппаратной части этой технологии. Недавно компания объявила о создании новых специализированных процессоров и разработке инновационного «гиперкомпьютера», предназначенного для искусственного интеллекта нового поколения
Новые чипы называются Cloud TPU v5p — это самый мощный и эффективный TPU (Cloud Tensor Processing Unit) от Google. Каждый блок TPU v5p состоит из 8 960 чипов, соединенных между собой с помощью высокоскоростного межчипового соединения с вдвое более высокой пропускной способностью в 4800 гигабит в секунду на каждый чип. Это обеспечивает высокую скорость передачи данных и оптимальную производительность. Google не собирается останавливаться на достигнутом и заявляет, что цифры скачка будущих поколений нас поразят.
По сравнению с TPU v4, недавно выпущенный v5p имеет вдвое большее количество FLOPS и втрое большую пропускную способность оперативной памяти.
Когда дело доходит до обучения моделей, TPU v5p демонстрирует скачок в скорости обучения LLM в 2,8 раза.
Google также создал пространство, чтобы выжать больше вычислительной мощности, поскольку TPU v5p «в 4 раза более масштабируемый, чем TPU v4 с точки зрения общего количества доступных FLOPs на модуль».
Google описывает свою новую разработку как «гиперкомпьютер ИИ», который представляет собой комплекс компонентов, спроектированных для взаимодействия и обработки современных задач искусственного интеллекта. Они интегрировали системы, которые оптимизированы для высокой вычислительной производительности и эффективного хранения данных, дополненные жидкостным охлаждением. Эта комбинация позволяет им достичь максимальной производительности. Это, скорее всего, относится к высокомощным серверам, разработанным с использованием последних инноваций в этой области.
Работает все на соответствующем программном обеспечении, которое гарантирует «наилучшую производительность» для оборудования. Вот краткий обзор недавно добавленных программных ресурсов в гиперкомпьютере искусственного интеллекта:
- Широкая поддержка популярных фреймворков ML, таких как JAX, TensorFlow и PyTorch, доступна прямо из коробки. И JAX, и PyTorch работают на основе компилятора OpenXLA для построения сложных языковых моделей. XLA служит фундаментальной основой, позволяющей создавать сложные многослойные модели (обучение Llama 2 и вывод на облачных TPU с помощью PyTorch/XLA). Он оптимизирует распределенные архитектуры на широком спектре аппаратных платформ, обеспечивая простую в использовании и эффективную разработку моделей для различных случаев применения ИИ (AssemblyAI использует JAX/XLA и Cloud TPU для крупномасштабного вещания ИИ).
- Открытое и уникальное программное обеспечение Multislice Training и Multihost Inferencing соответственно делает масштабирование, обучение и обслуживание рабочих нагрузок простыми и легкими. Разработчики могут масштабировать до десятков тысяч чипов для поддержки высоких рабочих нагрузок ИИ.
- Глубокая интеграция с Google Kubernetes Engine (GKE) и Google Compute Engine обеспечивает эффективное управление ресурсами, согласованность операционных сред, автоматическое масштабирование, автоматическое резервирование пулов узлов, автоматическую контрольную точку, автоматическое восстановление и своевременное восстановление после сбоев.
Революционный подход Google к искусственному интеллекту вполне очевиден благодаря новому набору аппаратных и программных элементов, которые готовы сломать барьеры, ограничивающие отрасль. Будет интересно посмотреть, как новые вычислительные блоки Cloud TPU v5p в сочетании с гиперкомпьютером AI помогут в текущих разработках, но одно можно сказать наверняка: они, несомненно, усилят конкуренцию.
Сейчас сложно оценить, насколько реальные характеристики, заявленные Google, будут соответствовать их фактической эффективности. Процессоры, которые использует Google в своих смартфонах, обычно не дотягивают до технического уровня, который предлагают Qualcomm и Apple, хотя чипы Tensor позиционируются как специально созданные для работы с искусственным интеллектом. На сегодня NVIDIA считается мировым лидером в производстве микросхем для искусственного интеллекта. Кроме того, такие компании как Microsoft с ее Maia 100 AI Accelerator и Amazon с Trainium2 также активно разрабатывают собственные решения в этой области.
Вас также может заинтересовать:
Google Ukraine ищет нового директора в украинский офис: какие требования
Google создал новый специальный домен: для чего он нужен
Google собирается отключить Календарь: почему
Источник: Wccftech