Telegram Group & Telegram Channel
В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc



group-telegram.com/gostrateg8/744
Create:
Last Update:

В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc

BY Го и стратегия




Share with your friend now:
group-telegram.com/gostrateg8/744

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. 'Wild West' As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from us


Telegram Го и стратегия
FROM American