Розвиток мовних моделей штучного інтелекту демонструє те, наскільки далеко зайшла сьогодні наука. Серед останніх досягнень — Gemini 1.5 Pro від Google і GPT-4 Turbo від OpenAI. У цій статті ми детально порівняємо їхні можливості, як двох флагманів на ринку AI
Лише через тиждень після випуску Gemini 1.0 Ultra компанія Google випустила попередню версію Gemini 1.5 Pro, нової моделі, яка має скласти пряму конкуренцію одній з найбільших моделей штучного інтелекту у світі — GPT-4. Нова модель доступна через AI Studio та Vertex AI і обіцяє значно покращену продуктивність, принаймні так стверджує Google.
Згідно з анонсом, нова модель 1.5 Pro створена для обробки величезних обсягів даних з більшим контекстним вікном. Але чи є нова модель значно кращою за попередню версію 1.0 Pro, а також конкурента GPT-4? Чи це просто оновлення, яке не має великого значення?
Google Gemini 1.5 проти 1.0 Pro — що нового?
Користуватися Google Gemini можна так само, як і раніше, але з’явилися нові доповнення. Від більшого контекстного вікна до швидшого часу відгуку — модель 1.5 Pro має багато переваг. Вона може не тільки аналізувати великі блоки даних, але й тепер може швидко знаходити певний фрагмент тексту всередині блоків, які можуть займати близько 1 мільйона токенів.
Швидший час відгуку
У порівнянні з Gemini 1.0, Gemini 1.5 Pro має набагато швидший час відгуку, і все це завдяки новітній архітектурі Transformer і Mixture-of-Experts (MoE). Як правило, звичайний трансформер працює як одна нейронна мережа. Однак моделі MoE складаються з групи невеликих нейронних мереж або моделей, що дозволяє системі працювати більш ефективно.
Кожного разу, коли на вхід моделі подається певний тип даних, MoE-моделі активують лише відповідні шляхи, щоб не витрачати ресурси даремно, і розбивають завдання на кілька підзадач, щоб їх можна було призначити відповідним нейронним моделям. Все це призводить до прискорення часу відгуку при збереженні якості вихідних даних.
Цікаве по темі: Google оновить частину інтерфейсу: як виглядатиме
Поставляється з більшим контекстним вікном
Це одне з найважливіших особливостей Gemini 1.5 Pro. Контекстне вікно складається з токенів, які можуть бути частинами текстів, зображень, аудіо, коду або відео. Чим більшим є контекстне вікно, тим більше інформації Gemini може прийняти і обробити, щоб згенерувати вихідні дані. Уявіть, що ви дивитеся на модель через вікно. Чим більше вікно, тим більше інформації бачить модель і тим краще вона може дати відповідь.
Gemini 1.5 Pro поставляється з контекстним вікном на 1 мільйон токенів. Це значно більше, ніж контекстне вікно Gemini 1.0, яке було обмежене 32 000 токенів. Однак, майте на увазі, що вікно контексту на 1 мільйон токенів — частина платної версії Gemini 1.5 Pro. Ті, хто використовує безкоштовну версію, отримають доступ до 128 000 токенів. Однак, це все одно в 4 рази більше, ніж було в Gemini 1.0 Pro. Але поки що, поки не вийшла платна версія, користувачі можуть отримати доступ до максимальних характеристик безкоштовно.
Завдяки збільшеному контекстному вікну Gemini 1.5 Pro може обробити 1 годину відео, 11 годин аудіо і код з більш ніж 30 000 рядків або 700 000 слів. Для прикладу, Google завантажив у Gemini 1.5 Pro 402-сторінкову стенограму польоту Аполлона-11 на Місяць і попросив її знайти три комічні моменти. Стенограма містила близько 330 000 лексем, і модель видала точний результат менш ніж за хвилину.
Краще в кодуванні
За даними Google, Gemini 1.5 Pro набагато краще кодує, ніж Gemini 1.0 Ultra. Безкоштовна версія оновленого ШІ здатна надавати набагато кращі результати, ніж платна версія попередньої моделі. Це також пов’язано з великим контекстним вікном, яке тепер дозволяє Gemini розуміти більше інформації та рядків коду.
Коли справа доходить до вирішення завдань, Gemini 1.5 Pro може ефективно працювати з довгими блоками коду. Під час офіційного попереднього перегляду він зміг пройти через підказку з більш ніж 100 000 рядків коду, в якому було використано понад 800 000 токенів, і запропонував корисні модифікації. Він навіть пояснив, як працюють певні частини коду, і результати були точними. Отже, якщо ви розробник, це дійсно може допомогти вам у роботі з великими блоками коду.
Краща продуктивність і здатність до навчання
Коли справа доходить до продуктивності, Gemini 1.5 Pro перевершує 1.0 Pro у 87% бенчмарків, які використовує Google. У 99% випадків Gemini 1.5 зміг знайти невеликий фрагмент тексту в блоках даних довжиною до мільйона токенів під час тестування, відомого як «пошук голки в стозі сіна».
Коли справа доходить до вивчення нових навичок, Gemini 1.5 Pro показує вражаючі результати. За даними Google, нова модель може швидко засвоїти нову навичку за допомогою наданої інформації. Наприклад, Google надав їй посібник з граматики мови каламанг, якою розмовляють менше 200 людей у світі. На диво, Gemini 1.5 Pro вивчила все про неї і згодом змогла перекладати з англійської на каламанг так само, як і на більш поширені мови. Це означає, що під час розмови ви можете надавати Gemini інформацію, яку він раніше не бачив, і він швидко її засвоїть, щоб застосувати в подальшій розмові.
Читайте популярне: Google презентувала відкриті мовні моделі Gemma: що вміють
Недоліки Gemini 1.5
Про всі мінуси новинки ми ще не знаємо, однак вже маємо серйозну проблему зі сприйняттям кольору шкіри та відображенням деяких історичних постатей, через що багато людей прозвали ШІ «расистським». У зв’язку з проблемою компанія Google оголосила, що призупиняє можливість створювати людські зображення за допомогою Gemini.
Зокрема, ШІ не зміг коректно зобразити засновників Сполучених Штатів або німецьких солдат часів Другої світової війни. Користувачі виявили, що деякі з цих людей були зображені з нетиповим кольором шкіри. В результаті в соціальних мережах почали циркулювати теорії змови і звинувачення в тому, що Google навмисно уникає зображення білих людей або змінює стать.
Наприклад, у відповідь на запит створити зображення «сенатора США з 1800-х років», Gemini в деяких випадках видавав результати, що включали чорношкірих і корінних американських жінок. Першою жінкою-сенатором стала біла жінка у 1922 році, тож ШІ-зображення Gemini фактично стерли історію расової та гендерної дискримінації.
У Google заперечують звинувачення і кажуть, що така генерація зображень викликана тим, що їхня АІ-модель створює різноманітні образи різних людей, оскільки нею користуються люди з усього світу. Тому в деяких випадках в історичних зображеннях можуть бути неточності.
Google вибачився за ці помилкові зображення і заявив, що планує виправити ситуацію. А поки що компанія призупиняє можливість створювати зображення людей.
«Ми вже працюємо над вирішенням нещодавніх проблем з функцією створення зображень Gemini, — йдеться у заяві Google. — Поки ми це робимо, ми збираємося призупинити створення зображень людей і незабаром випустити покращену версію».
We’re already working to address recent issues with Gemini’s image generation feature. While we do this, we’re going to pause the image generation of people and will re-release an improved version soon. https://t.co/SLxYPGoqOZ
— Google Communications (@Google_Comms) February 22, 2024
Тепер, розуміючи, що ж саме змінилось в оновленому Gemini, можемо порівняти його з GPT-4.
Читайте також: 3 способи, за допомогою яких генеративний ШІ робить наш світ кращим
Порівняльний аналіз
Gemini 1.5 Pro дещо випереджає GPT-4 Turbo у завданнях на загальне міркування, що свідчить про його надійне розуміння різноманітних наборів даних.
Що стосується математичних міркувань, GPT-4 Turbo випереджає Gemini 1.5 Pro у вирішенні складних завдань, що відображає його тонке розуміння складних математичних концепцій.
Генерація коду
GPT-4 Turbo лідирує в бенчмарках генерації коду, демонструючи свою здатність розуміти і генерувати код більш точно, що є вирішальним аспектом для розробників.
Розуміння зображень
GPT-4 Turbo демонструє чудову продуктивність у завданнях розуміння зображень, що свідчить про його розширені можливості в інтерпретації та реагуванні на візуальну інформацію.
Розуміння відео
Gemini 1.5 Pro перевершує GPT-4 Turbo у розумінні відео, демонструючи свої переваги в аналізі та створенні контенту з відеоданих.
Обробка аудіо
Gemini 1.5 Pro демонструє значний прогрес в обробці аудіо, значно перевершуючи GPT-4 Turbo, що підкреслює його чудову здатність розуміти і перекладати розмовну мову.
Чи Gemini 1.5 Pro кращий за GPT-4 Turbo?
Визначення того, чи є Gemini 1.5 Pro кращим за GPT-4 Turbo, залежить від конкретних випадків використання та вимог. Gemini 1.5 Pro відмінно справляється з обробкою великих наборів даних і розумінням складної мультимодальної інформації, що робить його ідеальним для застосунків, які потребують глибокого контекстного аналізу великих обсягів даних.
І навпаки, GPT-4 Turbo відмінно справляється з генерацією коду, розумінням зображень і завданнями, що вимагають високої точності мови і візуального сприйняття. Обидві моделі пропонують виняткові можливості, але їх найкраще застосування залежить від конкретних потреб завдання, що стоїть перед вами.
Читайте також: Google запустив безплатні ШІ-інструменти для посилення кібербезпеки
Можливості та продуктивність
Можливості GPT-4 Turbo і Gemini 1.5 Pro вражають, але вони перевершують один одного в різних сферах.
GPT-4 Turbo найкраще підходить для роботи з чистим текстом, пропонуючи створення матеріалів з урахуванням нюансів і контексту, що робить його ідеальним для творчого письма, допомоги в кодуванні і навіть для вирішення складних завдань. Його мовні моделі були доопрацьовані для забезпечення більш точних і релевантних відповідей, що робить його незамінним інструментом як для професіоналів, так і для творчих людей.
Gemini 1.5 Pro вирізняється своєю здатністю розуміти та генерувати контент у різних форматах. Його здатність до довготривалого контекстного пошуку — революційна, дозволяючи підтримувати узгодженість довгих фрагментів контенту і різних типів даних. Це робить Gemini 1.5 Pro особливо корисною в освітньому контексті, де вона може надавати пояснення та навчальні посібники, що включають текст, діаграми та відео для більш повного засвоєння матеріалу.
Варіанти використання
GPT-4 Turbo використовується для створення контенту, ботів для обслуговування клієнтів, а також як помічник у кодуванні та написанні технічних текстів, де його можливості генерації тексту можуть значно прискорити робочі процеси та підвищити якість вихідних даних.
Gemini 1.5 Pro знаходить своє місце в більш складних і складних застосунках, таких як крос-модальні освітні платформи, багатомовні перекладацькі сервіси, що вимагають розуміння культурних нюансів, а також в аналізі великих масивів даних у різних форматах для дослідницьких цілей.
Наслідки для майбутнього ШІ
Досягнення, представлені GPT-4 Turbo і Gemini 1.5 Pro, підкреслюють швидкі темпи розвитку штучного інтелекту та його дедалі глибше розуміння людської мови й комунікації. Ці моделі не тільки розширюють межі можливостей ШІ сьогодні, але й відкривають нові шляхи для досліджень і застосування в майбутньому.
Мультимодальні можливості Gemini 1.5 Pro, зокрема, передбачають майбутнє, в якому ШІ зможе безперешкодно взаємодіяти з інформацією в будь-якій формі, руйнуючи бар’єри між різними типами контенту і роблячи цифрову інформацію більш доступною для користувачів у всьому світі. Тим часом, вдосконалені можливості GPT-4 Turbo з генерації тексту продовжують розширювати наші можливості творити і спілкуватися, автоматизуючи рутинні завдання і відкриваючи нові форми творчості.
Висновок
Порівнюючи Gemini 1.5 Pro і GPT-4 Turbo, стає зрозуміло, що обидві моделі представляють собою значні досягнення в галузі штучного інтелекту. У той час як GPT-4 Turbo продовжує вдосконалювати і розширювати можливості ШІ на основі тексту, Gemini 1.5 Pro відкриває нові горизонти завдяки мультимодальному і об’ємному розумінню контексту. Разом ці моделі не тільки демонструють поточний стан технології ШІ, але й натякають на її майбутню траєкторію, обіцяючи більш інтуїтивно зрозумілі, ефективні та універсальні інструменти ШІ в найближчі роки.
Ознайомтеся з іншими популярними матеріалами:
Google оголосив про нові гранти для українських стартапів
Український стартап бере участь у програмі Google
Скільки «податку на Google» заплатили компанії в кінці 2023 року — Гетманцев
За матеріалами blog.google, itc.ua, bito.ai, pcguide.com, techopedia.com.