Telegram Group & Telegram Channel
В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc



group-telegram.com/gostrateg8/744
Create:
Last Update:

В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc

BY Го и стратегия




Share with your friend now:
group-telegram.com/gostrateg8/744

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. Some privacy experts say Telegram is not secure enough Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp.
from jp


Telegram Го и стратегия
FROM American