Новая модель искусственного интеллекта (ИИ) только что достигла результатов на уровне человека в тесте, предназначенном для измерения «общего интеллекта»
20 декабря система o3 от OpenAI набрала 85% в тесте ARC-AGI, что значительно выше предыдущего лучшего результата ИИ — 55% — и на уровне среднего человеческого показателя. Она также показала хорошие результаты в очень сложном математическом тесте.
Создание искусственного общего интеллекта (ИОИ) — это цель, которую ставят перед собой все ведущие исследовательские лаборатории. На первый взгляд, OpenAI по крайней мере сделал значительный шаг к этой цели.
Хотя скептицизм остается, многие исследователи и разработчики ИИ чувствуют, что что-то изменилось. Для многих перспектива ИИ теперь кажется более реальной, насущной и близкой, чем ожидалось.
Чтобы понять результат o3, нужно знать о тесте ARC-AGI. Это проверка способности ИИ адаптироваться к новым ситуациям, определяя, сколько примеров нужно для понимания их работы.
Интересное по теме: В Украине появился словарь ИИ-терминов
Системы ИИ, как ChatGPT (GPT-4), не очень эффективны в этом. Они «тренированы» на миллионах примеров текста, но слабы в редких задачах из-за нехватки данных.
Пока ИИ не сможет эффективно обучаться на небольшой выборке, его будут использовать для повторяющихся задач, где ошибки допустимы. Способность обобщать новые проблемы из минимума данных является ключевым элементом интеллекта.
Тест ARC-AGI проверяет способность адаптироваться на выборке, предлагая задачи с сетками. ИИ нужно найти закономерность, которая преобразует левую сетку в правую.
Каждый вопрос содержит три примера для обучения, после чего ИИ должен обобщить правила для четвертого примера. Это напоминает школьные тесты IQ.
Модель o3 демонстрирует высокую способность к адаптации, находя обобщенные правила только по нескольким примерам. Для выявления закономерностей важно избегать лишних предположений и сосредотачиваться на самых «слабых» правилах — то есть самом простом объяснении, которое работает.
Хотя мы не знаем точно, как OpenAI достигли такого результата, вряд ли они специально оптимизировали o3 для поиска слабых правил. Однако для успеха в ARC-AGI модель должна их находить.
Читайте также: 5 мошеннических схем с ИИ, которые будут оставаться актуальными в 2025 году
OpenAI начала с универсальной версии o3, которая может тратить больше времени на «размышления» над сложными задачами, и адаптировала ее для теста ARC-AGI. Французский исследователь Франсуа Шолле, который создал этот бенчмарк, предполагает, что o3 перебирает «цепочки мыслей» — последовательности шагов для решения задачи — и выбирает лучший по определенной эвристике. Это похоже на подход AlphaGo, который перебирает возможные ходы, чтобы выбрать лучший.
Цепочки мыслей можно представить как программы, соответствующие примерам. Для выбора нужна эвристика, например: «выбрать самую слабую» или «выбрать самую простую» программу. Как и в AlphaGo, ИИ, возможно, научили создавать такую эвристику, оценивая различные варианты по принципу «лучше или хуже».
Приближает ли o3 нас к ИИ? Как всегда, доказательство будет в практических результатах.
Детали о o3 остаются ограниченными. OpenAI поделилась лишь несколькими презентациями и ранним тестированием с исследователями и учреждениями, работающими над безопасностью ИИ. Для понимания его потенциала нужны оценки, анализ распределения возможностей, частоты успехов и неудач.
После выпуска o3 станет понятно, может ли он обобщать так же хорошо, как среднестатистический человек. Если да, это может вызвать революцию в экономике и начать новую эру самосовершенствующегося интеллекта. Это потребует новых ориентиров для ИИ и переосмысления подходов к его управлению. Если нет, это все равно будет значительным достижением, хотя наша повседневная жизнь существенно не изменится.
Ознакомьтесь с другими популярными материалами:
Украинские IT-лидеры установили ключевые принципы использования ИИ
OpenAI представила свою новую модель ИИ
Ученые создали революционно быстрый ИИ-чип
По материалам: The Conversation.