Notice: file_put_contents(): Write of 13470 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1523 -
Telegram Group & Telegram Channel
ARC Benchmark

Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов (или тестов с опциями ответа, но не все): чтобы ответить на вопрос «в каком году было то и то?» не нужно быть гением мысли или обладать выдающимся интеллектом. Достаточно просто запомнить факт.

По мере усложнения задач в какой-то момент мы натыкаемся на дилемму — что является запоминанием, а что рассуждением модели? Если я придумываю новую математическую задачку для средней школы, которая решается в 4-5 действий, и модель её решает — какая здесь доля запоминания, а какая интеллекта/рассуждений? Модель могла видеть много схожих задач (больше, чем дети при обучении в школе), но не конкретно эту и даже не другую такую же с идентичным принципом решения.

И после преодоления этого региона, в теории, начинаются задачи, связанные с очень банальными знаниями, но требующие именно рассуждений. Вот ARC Benchmark, по мнению его создателя Francois Chollet, такой. С ним неплохо справляются дети, на 90%+ решают взрослые, но ни одна модель или даже система ни 4 года назад, ни сегодня не показывает близких результатов.

Как выглядит бенчмарк? Это сотни задачек по типу тех, что указаны на картинке, или которые вы можете покликать тут. Цель — по нескольким примерам найти паттерн, и применить его к новой ситуации. Francois считает, что паттерны и тип задачи тут очень редки, чтобы не допустить запоминания, но в то же время человек может разобраться.

Chollet вот 5 лет назад статью написал про свои взгляды и то, почему именно так хочет тестировать модели, и про то, почему нахождение новых паттернов из очень маленького набора данных и умение их применять — это мера интеллекта.

В среднем человек решает 85% задач (когда выходная картинка для нового примера идентично авторской), а LLM-ки единицы процентов. Лучшие системы (заточенные под схожий класс задач) добиваются ~34%.



group-telegram.com/seeallochnaya/1523
Create:
Last Update:

ARC Benchmark

Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов (или тестов с опциями ответа, но не все): чтобы ответить на вопрос «в каком году было то и то?» не нужно быть гением мысли или обладать выдающимся интеллектом. Достаточно просто запомнить факт.

По мере усложнения задач в какой-то момент мы натыкаемся на дилемму — что является запоминанием, а что рассуждением модели? Если я придумываю новую математическую задачку для средней школы, которая решается в 4-5 действий, и модель её решает — какая здесь доля запоминания, а какая интеллекта/рассуждений? Модель могла видеть много схожих задач (больше, чем дети при обучении в школе), но не конкретно эту и даже не другую такую же с идентичным принципом решения.

И после преодоления этого региона, в теории, начинаются задачи, связанные с очень банальными знаниями, но требующие именно рассуждений. Вот ARC Benchmark, по мнению его создателя Francois Chollet, такой. С ним неплохо справляются дети, на 90%+ решают взрослые, но ни одна модель или даже система ни 4 года назад, ни сегодня не показывает близких результатов.

Как выглядит бенчмарк? Это сотни задачек по типу тех, что указаны на картинке, или которые вы можете покликать тут. Цель — по нескольким примерам найти паттерн, и применить его к новой ситуации. Francois считает, что паттерны и тип задачи тут очень редки, чтобы не допустить запоминания, но в то же время человек может разобраться.

Chollet вот 5 лет назад статью написал про свои взгляды и то, почему именно так хочет тестировать модели, и про то, почему нахождение новых паттернов из очень маленького набора данных и умение их применять — это мера интеллекта.

В среднем человек решает 85% задач (когда выходная картинка для нового примера идентично авторской), а LLM-ки единицы процентов. Лучшие системы (заточенные под схожий класс задач) добиваются ~34%.

BY Сиолошная






Share with your friend now:
group-telegram.com/seeallochnaya/1523

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from sg


Telegram Сиолошная
FROM American