Notice: file_put_contents(): Write of 13470 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1523 -
Telegram Group & Telegram Channel
ARC Benchmark

Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов (или тестов с опциями ответа, но не все): чтобы ответить на вопрос «в каком году было то и то?» не нужно быть гением мысли или обладать выдающимся интеллектом. Достаточно просто запомнить факт.

По мере усложнения задач в какой-то момент мы натыкаемся на дилемму — что является запоминанием, а что рассуждением модели? Если я придумываю новую математическую задачку для средней школы, которая решается в 4-5 действий, и модель её решает — какая здесь доля запоминания, а какая интеллекта/рассуждений? Модель могла видеть много схожих задач (больше, чем дети при обучении в школе), но не конкретно эту и даже не другую такую же с идентичным принципом решения.

И после преодоления этого региона, в теории, начинаются задачи, связанные с очень банальными знаниями, но требующие именно рассуждений. Вот ARC Benchmark, по мнению его создателя Francois Chollet, такой. С ним неплохо справляются дети, на 90%+ решают взрослые, но ни одна модель или даже система ни 4 года назад, ни сегодня не показывает близких результатов.

Как выглядит бенчмарк? Это сотни задачек по типу тех, что указаны на картинке, или которые вы можете покликать тут. Цель — по нескольким примерам найти паттерн, и применить его к новой ситуации. Francois считает, что паттерны и тип задачи тут очень редки, чтобы не допустить запоминания, но в то же время человек может разобраться.

Chollet вот 5 лет назад статью написал про свои взгляды и то, почему именно так хочет тестировать модели, и про то, почему нахождение новых паттернов из очень маленького набора данных и умение их применять — это мера интеллекта.

В среднем человек решает 85% задач (когда выходная картинка для нового примера идентично авторской), а LLM-ки единицы процентов. Лучшие системы (заточенные под схожий класс задач) добиваются ~34%.



group-telegram.com/seeallochnaya/1523
Create:
Last Update:

ARC Benchmark

Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов (или тестов с опциями ответа, но не все): чтобы ответить на вопрос «в каком году было то и то?» не нужно быть гением мысли или обладать выдающимся интеллектом. Достаточно просто запомнить факт.

По мере усложнения задач в какой-то момент мы натыкаемся на дилемму — что является запоминанием, а что рассуждением модели? Если я придумываю новую математическую задачку для средней школы, которая решается в 4-5 действий, и модель её решает — какая здесь доля запоминания, а какая интеллекта/рассуждений? Модель могла видеть много схожих задач (больше, чем дети при обучении в школе), но не конкретно эту и даже не другую такую же с идентичным принципом решения.

И после преодоления этого региона, в теории, начинаются задачи, связанные с очень банальными знаниями, но требующие именно рассуждений. Вот ARC Benchmark, по мнению его создателя Francois Chollet, такой. С ним неплохо справляются дети, на 90%+ решают взрослые, но ни одна модель или даже система ни 4 года назад, ни сегодня не показывает близких результатов.

Как выглядит бенчмарк? Это сотни задачек по типу тех, что указаны на картинке, или которые вы можете покликать тут. Цель — по нескольким примерам найти паттерн, и применить его к новой ситуации. Francois считает, что паттерны и тип задачи тут очень редки, чтобы не допустить запоминания, но в то же время человек может разобраться.

Chollet вот 5 лет назад статью написал про свои взгляды и то, почему именно так хочет тестировать модели, и про то, почему нахождение новых паттернов из очень маленького набора данных и умение их применять — это мера интеллекта.

В среднем человек решает 85% задач (когда выходная картинка для нового примера идентично авторской), а LLM-ки единицы процентов. Лучшие системы (заточенные под схожий класс задач) добиваются ~34%.

BY Сиолошная






Share with your friend now:
group-telegram.com/seeallochnaya/1523

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. He adds: "Telegram has become my primary news source."
from ms


Telegram Сиолошная
FROM American