Gemini 1.5 Pro от Google vs GPT-4 Turbo от OpenAI: что выбрать пользователям

Развитие языковых моделей искусственного интеллекта демонстрирует то, насколько далеко зашла сегодня наука. Среди последних достижений — Gemini 1.5 Pro от Google и GPT-4 Turbo от OpenAI. В этой статье мы подробно сравним их возможности, как двух флагманов на рынке AI

Google Gemini 1.5 Pro Фото: blog.google, freepik.com, pngwing.com

Всего через неделю после выпуска Gemini 1.0 Ultra компания Google выпустила предварительную версию Gemini 1.5 Pro, новой модели, которая должна составить прямую конкуренцию одной из крупнейших моделей искусственного интеллекта в мире — GPT-4. Новая модель доступна через AI Studio и Vertex AI и обещает значительно улучшенную производительность, по крайней мере так утверждает Google.

Согласно анонсу, новая модель 1.5 Pro создана для обработки огромных объемов данных с большим контекстным окном. Но является ли новая модель значительно лучше предыдущей версии 1.0 Pro, а также конкурента GPT-4? Или это просто обновление, которое не имеет большого значения?

Google Gemini 1.5 против 1.0 Pro — что нового?

Пользоваться Google Gemini можно так же, как и раньше, но появились новые дополнения. От большего контекстного окна до более быстрого времени отклика — модель 1.5 Pro имеет много преимуществ. Она может не только анализировать большие блоки данных, но и теперь может быстро находить определенный фрагмент текста внутри блоков, которые могут занимать около 1 миллиона токенов.

Более быстрое время отклика

По сравнению с Gemini 1.0, Gemini 1.5 Pro имеет гораздо более быстрое время отклика, и все это благодаря новейшей архитектуре Transformer и Mixture-of-Experts (MoE). Как правило, обычный трансформер работает как одна нейронная сеть. Однако модели MoE состоят из группы небольших нейронных сетей или моделей, что позволяет системе работать более эффективно.

Каждый раз, когда на вход модели подается определенный тип данных, MoE-модели активируют только соответствующие пути, чтобы не тратить ресурсы впустую, и разбивают задачу на несколько подзадач, чтобы их можно было назначить соответствующим нейронным моделям. Все это приводит к ускорению времени отклика при сохранении качества выходных данных.

Интересное по теме: Google обновит часть интерфейса: как будет выглядеть

Поставляется с большим контекстным окном

Это одно из важнейших особенностей Gemini 1.5 Pro. Контекстное окно состоит из токенов, которые могут быть частями текстов, изображений, аудио, кода или видео. Чем больше контекстное окно, тем больше информации Gemini может принять и обработать, чтобы сгенерировать выходные данные. Представьте, что вы смотрите на модель через окно. Чем больше окно, тем больше информации видит модель и тем лучше она может дать ответ.

Gemini 1.5 Pro поставляется с контекстным окном на 1 миллион токенов. Это значительно больше, чем контекстное окно Gemini 1.0, которое было ограничено 32 000 токенов. Однако, имейте в виду, что окно контекста на 1 миллион токенов — часть платной версии Gemini 1.5 Pro. Те, кто использует бесплатную версию, получат доступ к 128 000 токенов. Однако, это все равно в 4 раза больше, чем было в Gemini 1.0 Pro. Но пока что, пока не вышла платная версия, пользователи могут получить доступ к максимальным характеристикам бесплатно.

Фото: blog.google

Благодаря увеличенному контекстному окну Gemini 1.5 Pro может обработать 1 час видео, 11 часов аудио и код из более чем 30 000 строк или 700 000 слов. Для примера, Google загрузил в Gemini 1.5 Pro 402-страничную стенограмму полета Аполлона-11 на Луну и попросил ее найти три комичных момента. Стенограмма содержала около 330 000 лексем, и модель выдала точный результат менее чем за минуту.

Лучше в кодировании

По данным Google, Gemini 1.5 Pro гораздо лучше кодирует, чем Gemini 1.0 Ultra. Бесплатная версия обновленного ИИ способна предоставлять гораздо лучшие результаты, чем платная версия предыдущей модели. Это также связано с большим контекстным окном, которое теперь позволяет Gemini понимать больше информации и строк кода.

Когда дело доходит до решения задач, Gemini 1.5 Pro может эффективно работать с длинными блоками кода. Во время официального предварительного просмотра он смог пройти через подсказку из более чем 100 000 строк кода, в котором было использовано более 800 000 токенов, и предложил полезные модификации. Он даже объяснил, как работают определенные части кода, и результаты были точными. Итак, если вы разработчик, это действительно может помочь вам в работе с большими блоками кода.

Лучшая производительность и обучаемость

Когда дело доходит до производительности, Gemini 1.5 Pro превосходит 1.0 Pro в 87% бенчмарков, которые использует Google. В 99% случаев Gemini 1.5 смог найти небольшой фрагмент текста в блоках данных длиной до миллиона токенов во время тестирования, известного как «поиск иглы в стоге сена».

Когда дело доходит до изучения новых навыков, Gemini 1.5 Pro показывает впечатляющие результаты. По данным Google, новая модель может быстро усвоить новый навык с помощью предоставленной информации. Например, Google предоставил ей пособие по грамматике языка каламанг, на котором говорят менее 200 человек в мире. На удивление, Gemini 1.5 Pro выучила все о нем и впоследствии смогла переводить с английского на каламанг так же, как и на более распространенные языки. Это означает, что во время разговора вы можете предоставлять Gemini информацию, которую он раньше не видел, и он быстро ее усвоит, чтобы применить в дальнейшем разговоре.

Недостатки Gemini 1.5

Обо всех минусах новинки мы еще не знаем, однако уже имеем серьезную проблему с восприятием цвета кожи и отображением некоторых исторических фигур, из-за чего многие люди прозвали ИИ «расистским». В связи с проблемой компания Google объявила, что приостанавливает возможность создавать человеческие изображения с помощью Gemini.

В частности, ИИ не смог корректно изобразить основателей Соединенных Штатов или немецких солдат времен Второй мировой войны. Пользователи обнаружили, что некоторые из этих людей были изображены с нетипичным цветом кожи. В результате в социальных сетях начали циркулировать теории заговора и обвинения в том, что Google намеренно избегает изображения белых людей или меняет пол.

Например, в ответ на запрос создать изображение «сенатора США из 1800-х годов», Gemini в некоторых случаях выдавал результаты, включавшие чернокожих и коренных американских женщин. Первой женщиной-сенатором стала белая женщина в 1922 году, поэтому ИИ-изображения Gemini фактически стерли историю расовой и гендерной дискриминации.

В Google отрицают обвинения и говорят, что такая генерация изображений вызвана тем, что их ИИ-модель создает различные образы разных людей, поскольку ею пользуются люди со всего мира. Поэтому в некоторых случаях в исторических изображениях могут быть неточности.

Google извинился за эти ошибочные изображения и заявил, что планирует исправить ситуацию. А пока что компания приостанавливает возможность создавать изображения людей.

«Мы уже работаем над решением недавних проблем с функцией создания изображений Gemini, — говорится в заявлении Google. — Пока мы это делаем, мы собираемся приостановить создание изображений людей и вскоре выпустить улучшенную версию».

We’re already working to address recent issues with Gemini’s image generation feature. While we do this, we’re going to pause the image generation of people and will re-release an improved version soon. https://t.co/SLxYPGoqOZ

— Google Communications (@Google_Comms) February 22, 2024

Теперь, понимая, что же именно изменилось в обновленном Gemini, можем сравнить его с GPT-4.

Сравнительный анализ

Gemini 1.5 Pro несколько опережает GPT-4 Turbo в задачах на общее рассуждение, что свидетельствует о его надежном понимании различных наборов данных.

Что касается математических рассуждений, GPT-4 Turbo опережает Gemini 1.5 Pro в решении сложных задач, что отражает его тонкое понимание сложных математических концепций.

Генерация кода

GPT-4 Turbo лидирует в бенчмарках генерации кода, демонстрируя свою способность понимать и генерировать код более точно, что является решающим аспектом для разработчиков.

Понимание изображений

GPT-4 Turbo демонстрирует превосходную производительность в задачах понимания изображений, что свидетельствует о его расширенных возможностях в интерпретации и реагировании на визуальную информацию.

Понимание видео

Gemini 1.5 Pro превосходит GPT-4 Turbo в понимании видео, демонстрируя свои преимущества в анализе и создании контента из видеоданных.

Обработка аудио

Gemini 1.5 Pro демонстрирует значительный прогресс в обработке аудио, значительно превосходя GPT-4 Turbo, что подчеркивает его превосходную способность понимать и переводить разговорную речь.

Является ли Gemini 1.5 Pro лучше GPT-4 Turbo?

Определение того, является ли Gemini 1.5 Pro лучше GPT-4 Turbo, зависит от конкретных случаев использования и требований. Gemini 1.5 Pro отлично справляется с обработкой больших наборов данных и пониманием сложной мультимодальной информации, что делает его идеальным для приложений, требующих глубокого контекстного анализа больших объемов данных.

И наоборот, GPT-4 Turbo отлично справляется с генерацией кода, пониманием изображений и задачами, требующими высокой точности речи и визуального восприятия. Обе модели предлагают исключительные возможности, но их наилучшее применение зависит от конкретных потребностей стоящей перед вами задачи.

Возможности и производительность

Возможности GPT-4 Turbo и Gemini 1.5 Pro впечатляют, но они превосходят друг друга в разных сферах.

GPT-4 Turbo лучше всего подходит для работы с чистым текстом, предлагая создание материалов с учетом нюансов и контекста, что делает его идеальным для творческого письма, помощи в кодировании и даже для решения сложных задач. Его языковые модели были доработаны для обеспечения более точных и релевантных ответов, что делает его незаменимым инструментом как для профессионалов, так и для творческих людей.

Gemini 1.5 Pro отличается своей способностью понимать и генерировать контент в различных форматах. Его способность к долговременному контекстному поиску — революционная, позволяя поддерживать согласованность длинных фрагментов контента и различных типов данных. Это делает Gemini 1.5 Pro особенно полезной в образовательном контексте, где она может предоставлять объяснения и учебные пособия, включающие текст, диаграммы и видео для более полного усвоения материала.

Варианты использования

GPT-4 Turbo используется для создания контента, ботов для обслуживания клиентов, а также в качестве помощника в кодировании и написании технических текстов, где его возможности генерации текста могут значительно ускорить рабочие процессы и повысить качество выходных данных.

Gemini 1.5 Pro находит свое место в более сложных и комплексных приложениях, таких как кросс-модальные образовательные платформы, многоязычные переводческие сервисы, требующие понимания культурных нюансов, а также в анализе больших массивов данных в различных форматах для исследовательских целей.

Последствия для будущего ИИ

Достижения, представленные GPT-4 Turbo и Gemini 1.5 Pro, подчеркивают быстрые темпы развития искусственного интеллекта и его все более глубокое понимание человеческой речи и коммуникации. Эти модели не только расширяют границы возможностей ИИ сегодня, но и открывают новые пути для исследований и применения в будущем.

Мультимодальные возможности Gemini 1.5 Pro, в частности, предсказывают будущее, в котором ИИ сможет беспрепятственно взаимодействовать с информацией в любой форме, разрушая барьеры между различными типами контента и делая цифровую информацию более доступной для пользователей во всем мире. Между тем, усовершенствованные возможности GPT-4 Turbo по генерации текста продолжают расширять наши возможности творить и общаться, автоматизируя рутинные задачи и открывая новые формы творчества.

Вывод

Сравнивая Gemini 1.5 Pro и GPT-4 Turbo, становится понятно, что обе модели представляют собой значительные достижения в области искусственного интеллекта. В то время как GPT-4 Turbo продолжает совершенствовать и расширять возможности ИИ на основе текста, Gemini 1.5 Pro открывает новые горизонты благодаря мультимодальному и объемному пониманию контекста. Вместе эти модели не только демонстрируют текущее состояние технологии ИИ, но и намекают на ее будущую траекторию, обещая более интуитивно понятные, эффективные и универсальные инструменты ИИ в ближайшие годы.

Ознакомьтесь с другими популярными материалами:

Google объявил о новых грантах для украинских стартапов

Украинский стартап участвует в программе Google

Сколько «налога на Google» заплатили компании в конце 2023 года — Гетманцев

По материалам blog.google, itc.ua, bito.ai, pcguide.com, techopedia.com.

Gemini 1.5 Pro от Google vs GPT-4 Turbo от OpenAI: что выбрать пользователям