group-telegram.com/gostrateg8/744
Last Update:
В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:
«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».
Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?
Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.
Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.
Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?
Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.
Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.
Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?
Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc
BY Го и стратегия
Share with your friend now:
group-telegram.com/gostrateg8/744