Вчені розробили інструмент для виявлення помилок у відповідях ШІ

Команда дослідників з Google DeepMind та Стенфордського університету розробила інноваційну систему автоматизованого оцінювання під назвою SAFE, призначену для аналізу відповідей, генерованих штучним інтелектом, з метою ідентифікації помилок

Вчені розробили інструмент для виявлення помилок у відповідях ШІ. Фото: freepik.com

Ця розробка має на меті спростити та оптимізувати процес верифікації інформації, що витікає з чат-ботів на основі ШІ, який традиційно вимагає значних зусиль з боку людських анотаторів.

Згідно з науковою публікацією, розміщеною на платформі arXiv, SAFE не лише полегшує масштабування процесу перевірки, а й показує вищу ефективність у порівнянні з традиційними методами.

Для дослідження було застосовано тринадцять мовних моделей із чотирьох різних сімейств, включаючи Gemini, GPT, Claude та PaLM-2, дозволяючи реалізувати комплексну багатоетапну систему аналізу для кожного наданого ШІ факту в контексті результатів пошуку.

Читайте також: ChatGPT тепер можна використовувати без реєстрації

В результаті було створено датасет із приблизно 16 тисяч фактів, кожен з яких був незалежно перевірений на точність через Пошук Google, а також на релевантність до поставленого запиту. У 72% випадків оцінки, надані системою SAFE, співпадали з оцінками людських анотаторів. Додатковий аналіз 100 суперечливих фактів показав, що визначення від SAFE були коректними в 76% випадків.

Такий підхід дозволив значно підвищити рівень точності мовних моделей, зокрема, модель GPT-4-Turbo досягла фактичної точності в 95%. Система SAFE виявилася не лише ефективним інструментом для забезпечення достовірності та надійності інформації, створеної мовними моделями, але й дозволила зменшити витрати на цей процес у 20 разів у порівнянні з людськими анотаціями, як підкреслюють дослідники.

Нагадаємо, техногігант Google відкрив безплатний доступ всім охочим до своєї нейромережі останнього покоління Gemini 1.5 Pro. Це нова можливість для розробників і не тільки, щоб обробляти великі обсяги даних та створювати нові продукти.

Ознайомтесь з іншими популярними матеріалами:

ЄС ухвалив закон про регуляцію ШІ: які будуть обмеження

Microsoft надав безплатний доступ до GPT-4 Turbo: як скористатись

Українська компанія потрапила до 100 потенційних єдинорогів Європи

Вчені розробили інструмент для виявлення помилок у відповідях ШІ

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Українську LLM тренуватимуть на моделі Gemma від Google

OpenAI може додати рекламу в ChatGPT

Нова пошта доручила перевірку відділень штучному інтелекту

OpenAI додала нову функцію у ChatGPT

Кійосакі попереджає про обвал двох секторів через ШІ

Ще 10 днів щоб стати фінтех-легендою: Чорна п’ятниця PSM Awards

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у жовтні 2025 — аналітика

НБУ застосував заходи впливу до двох кредитних спілок

Держборг України зріс майже на $3 млрд — Мінфін

Скільки б ви отримали, якби інвестували $1000 в срібло на початку 2025

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Скільки грошей українці інвестували в ОВДП у 2025 — Мінфін

Продуктивність праці в Україні у 3-5 разів нижча, ніж у ЄС — Гетманцев

Sony розробляє власний стейблкоїн

Вчені розробили інструмент для виявлення помилок у відповідях ШІ

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Українську LLM тренуватимуть на моделі Gemma від Google

OpenAI може додати рекламу в ChatGPT

Нова пошта доручила перевірку відділень штучному інтелекту

OpenAI додала нову функцію у ChatGPT

Кійосакі попереджає про обвал двох секторів через ШІ

Ще 10 днів щоб стати фінтех-легендою: Чорна п’ятниця PSM Awards

Хто з фінкомпаній отримав штраф від НБУ та втратив ліцензію у жовтні 2025 — аналітика

НБУ застосував заходи впливу до двох кредитних спілок

Держборг України зріс майже на $3 млрд — Мінфін

Скільки б ви отримали, якби інвестували $1000 в срібло на початку 2025

Nvidia представила нові відкриті моделі ШІ та набір інструментів Cosmos

Скільки грошей українці інвестували в ОВДП у 2025 — Мінфін

Продуктивність праці в Україні у 3-5 разів нижча, ніж у ЄС — Гетманцев

Sony розробляє власний стейблкоїн

Хочу отримувати: