Telegram Group & Telegram Channel
В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc



group-telegram.com/gostrateg8/744
Create:
Last Update:

В октябре группа исследователей из Apple опубликовала статью с вопросом: способны ли языковые модели (LLM) рассуждать. Они лежат в основе работы Chat-GPT и многих других инноваций в сфере ИИ. Для проверки взяли математический тест начальной школы (GSM8K). Цитата из статьи:

«Математическое мышление – важнейший когнитивный навык, который помогает решать проблемы в многочисленных научных и практических областях. Следовательно, способность больших языковых моделей (LLM) эффективно выполнять задачи математического мышления является ключом к развитию искусственного интеллекта и его применения в реальном мире».

Существующие модели неплохо справляются с базовым тестом, показывая результаты выше 80% верных ответов. Исследователи решили выяснить – является ли это результатом понимания задач теста?

Для начала в заданиях заменили имена и названия предметов, а также поменяли цифры. Условная Софи стала Анной, груши – персиками, а 3 штуки за 2 доллара превратились в 5 штук за 80 центов. Выяснилось, что замена имен не так критична, как изменение значений, однако точность ответов на измененные задачи теста начала падать.

Тогда исследователи усложнили задачи, добавив к условию новые параметры. Например, ввели в задачу на расчет стоимости звонка по телефону дополнительные скидки с определенной минуты разговора и скидку при достижении порога стоимости в 10 долларов. А на третьем шаге в задачи добавили не относящиеся к делу обстоятельства, запутывающие задачу.

Например, фермер Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. А в воскресение он собрал вдвое больше киви, чем в пятницу, но пять из них было немного меньше, чем в среднем. Сколько всего собрал киви Оливер?

Выяснилось, что лишняя информация про размер пяти киви сбивала с толку. В статье приводятся примеры рассуждений o1-mini и Llama3-8B, которые предлагают вычесть 5 киви из общего числа собранных в воскресение, «так как они меньше, чем в среднем». Падение точности решения тестов в этом случае стало драматическим. Например у GPT-4o результаты на 40% хуже по сравнению со стандартным тестом.

Лет 10 назад я составил тесты из задач для проверки уровней начальных кю для студентов. Проверять игровой уровень на задачах бессмысленно, но тестировать как-то надо, поэтому придумывал тесты с небольшой заковыкой, чтобы в них нужно было немного подумать. Редко кому удавалось пройти тесты с первого раза. Основные ошибки: невнимательность, что понятно; затем обобщение, когда человек сам подменил в голове суть вопроса; отвечающий сбился так как отвлекся на второстепенный фактор.

Послушав про результаты исследования, задался вопросом, а часто ли мы сами думаем? И сколько людей прошли бы такой тест от разработчиков?

Ссылка на разбор статьи: https://www.youtube.com/watch?v=tTG_a0KPJAc

BY Го и стратегия




Share with your friend now:
group-telegram.com/gostrateg8/744

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from ru


Telegram Го и стратегия
FROM American