Telegram Group & Telegram Channel
В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc



group-telegram.com/gostrateg8/744
Create:
Last Update:

В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc

BY Го и стратегия




Share with your friend now:
group-telegram.com/gostrateg8/744

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. NEWS What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych.
from id


Telegram Го и стратегия
FROM American