Ученые разработали инструмент для выявления ошибок в ответах ИИ

Команда исследователей из Google DeepMind и Стэнфордского университета разработала инновационную систему автоматизированного оценивания под названием SAFE, предназначенную для анализа ответов, генерируемых искусственным интеллектом, с целью идентификации ошибок

Вчені розробили інструмент для виявлення помилок у відповідях ШІ. Фото: freepik.com

Эта разработка имеет целью упростить и оптимизировать процесс верификации информации, исходящей из чат-ботов на основе ИИ, который традиционно требует значительных усилий со стороны человеческих аннотаторов.

Согласно научной публикации, размещенной на платформе arXiv, SAFE не только облегчает масштабирование процесса проверки, но и показывает более высокую эффективность по сравнению с традиционными методами.

Для исследования было использовано тринадцать языковых моделей из четырех различных семейств, включая Gemini, GPT, Claude и PaLM-2, позволяя реализовать комплексную многоэтапную систему анализа для каждого предоставленного ИИ факта в контексте результатов поиска.

В результате был создан датасет из примерно 16 тысяч фактов, каждый из которых был независимо проверен на точность через Поиск Google, а также на релевантность к поставленному запросу. В 72% случаев оценки, предоставленные системой SAFE, совпадали с оценками человеческих аннотаторов. Дополнительный анализ 100 противоречивых фактов показал, что определения от SAFE были корректными в 76% случаев.

Такой подход позволил значительно повысить уровень точности языковых моделей, в частности, модель GPT-4-Turbo достигла фактической точности в 95%. Система SAFE оказалась не только эффективным инструментом для обеспечения достоверности и надежности информации, созданной речевыми моделями, но и позволила уменьшить затраты на этот процесс в 20 раз по сравнению с человеческими аннотациями, как подчеркивают исследователи.

Напомним, техногигант Google открыл бесплатный доступ всем желающим к своей нейросети последнего поколения Gemini 1.5 Pro. Это новая возможность для разработчиков и не только, чтобы обрабатывать большие объемы данных и создавать новые продукты.

Ознакомьтесь с другими популярными материалами:

ЕС принял закон о регуляции ИИ: какие будут ограничения

Microsoft предоставил бесплатный доступ к GPT-4 Turbo: как воспользоваться

Украинская компания попала в 100 потенциальных единорогов Европы

Ученые разработали инструмент для выявления ошибок в ответах ИИ

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Кто из финансовых компаний лишился права работать в Украине: самые громкие кейсы последних лет

Кто из финкомпаний получил штраф от НБУ и лишился лицензии в мае 2025 — аналитика

Тренды Money20/20 Europe 2025: будущее платежных технологий в условиях глобальных вызовов

Что нужно сделать до операции по коррекции искривленной перегородки носа

4 лучших планшета от Apple для студентов

UniCredit готується закрити бізнес у Росії замість продажу активів

На скільки зросли борги українців по мікрокредитах за рік — Опендатабот

Как взять кредит под залог недвижимости, не выходя из дома

Програма Національний кешбек запрацювала по-новому — Мінекономіки

Ученые разработали инструмент для выявления ошибок в ответах ИИ

Как криптотрейдеры используют ИИ: обзор возможностей, рисков и сервисов

Кто из финансовых компаний лишился права работать в Украине: самые громкие кейсы последних лет

Кто из финкомпаний получил штраф от НБУ и лишился лицензии в мае 2025 — аналитика

Тренды Money20/20 Europe 2025: будущее платежных технологий в условиях глобальных вызовов

Что нужно сделать до операции по коррекции искривленной перегородки носа

4 лучших планшета от Apple для студентов

UniCredit готується закрити бізнес у Росії замість продажу активів

На скільки зросли борги українців по мікрокредитах за рік — Опендатабот

Как взять кредит под залог недвижимости, не выходя из дома

Програма Національний кешбек запрацювала по-новому — Мінекономіки

Хочу получать: