Команда дослідників з Google DeepMind та Стенфордського університету розробила інноваційну систему автоматизованого оцінювання під назвою SAFE, призначену для аналізу відповідей, генерованих штучним інтелектом, з метою ідентифікації помилок
Ця розробка має на меті спростити та оптимізувати процес верифікації інформації, що витікає з чат-ботів на основі ШІ, який традиційно вимагає значних зусиль з боку людських анотаторів.
Згідно з науковою публікацією, розміщеною на платформі arXiv, SAFE не лише полегшує масштабування процесу перевірки, а й показує вищу ефективність у порівнянні з традиційними методами.
Для дослідження було застосовано тринадцять мовних моделей із чотирьох різних сімейств, включаючи Gemini, GPT, Claude та PaLM-2, дозволяючи реалізувати комплексну багатоетапну систему аналізу для кожного наданого ШІ факту в контексті результатів пошуку.
Читайте також: ChatGPT тепер можна використовувати без реєстрації
В результаті було створено датасет із приблизно 16 тисяч фактів, кожен з яких був незалежно перевірений на точність через Пошук Google, а також на релевантність до поставленого запиту. У 72% випадків оцінки, надані системою SAFE, співпадали з оцінками людських анотаторів. Додатковий аналіз 100 суперечливих фактів показав, що визначення від SAFE були коректними в 76% випадків.
Такий підхід дозволив значно підвищити рівень точності мовних моделей, зокрема, модель GPT-4-Turbo досягла фактичної точності в 95%. Система SAFE виявилася не лише ефективним інструментом для забезпечення достовірності та надійності інформації, створеної мовними моделями, але й дозволила зменшити витрати на цей процес у 20 разів у порівнянні з людськими анотаціями, як підкреслюють дослідники.
Нагадаємо, техногігант Google відкрив безплатний доступ всім охочим до своєї нейромережі останнього покоління Gemini 1.5 Pro. Це нова можливість для розробників і не тільки, щоб обробляти великі обсяги даних та створювати нові продукти.
Ознайомтесь з іншими популярними матеріалами:
ЄС ухвалив закон про регуляцію ШІ: які будуть обмеження
Microsoft надав безплатний доступ до GPT-4 Turbo: як скористатись
Українська компанія потрапила до 100 потенційних єдинорогів Європи