Notice: file_put_contents(): Write of 357 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 12645 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1996 -
Telegram Group & Telegram Channel
Сиолошная
ARC Benchmark Многие бенчмарки (то есть наборы данных с размеченными ожидаемыми ответами, признанные прокси-оценками качества) для LLM справедливо можно критиковать за то, что они по сути тестируют запоминание. Самый простой пример — бенчмарки вопросов-ответов…
Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?

Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.

Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.

Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (12 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.

Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)

UPD: забыл написать, что предсказания автора бенчмарка полгода назад было, что по окончанию соревнования результат будет 50-56%. Так что немного опередили его ожидания!



group-telegram.com/seeallochnaya/1996
Create:
Last Update:

Помните я писал про ARC Benchmark (первый и второй пост), который нацелен на проверку абстрактного/пространственного визуального мышления?

Закончился конкурс, проводимый авторами, с фондом в $125'000. Как только начали фигурировать деньги — так сразу пошёл прогресс: до этого лучший результат был примерно 20% решённых загадок (и не использовал LLM). Сейчас же первое место закончило с результатом 55.5%, и это при том, что из-за технических проблем они не смогли отправить решение с 58% правильных ответов.

Пусть вас не смущает «маленькая» цифра — задачи-примеры на картинках это одни из самых простых, но есть и куда более сложные. Средний человек, согласно замерам вот тут (1729 человек!), набирает примерно 60.2%, если давать две попытки отправить ответ (и 47.8, если одну). В соревновании такой же формат, можно предложить два решения.

Однако в соревновании жесткие ограничения по ресурсам, которые хоть и выглядят разумно (12 часов на 100 задач с 1 GPU 8 летней давности), но всё же не позволяют развернуться на полную.

Кроме этого, с начала ноября вышло две крутых статьи с описанием методов, как можно ещё улучшить качество. Их разборы наверное будут в канале, но тем, кому не терпится, вот:
— Combining Induction and Transduction for Abstract Reasoning (генерируют огромное количество синтетических задач, используя GPT-4, и тренируют маленькую модель, которая решает задачи через написание python-кода)
— The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (вот это вообще очень крутая идея, перед применением модели для конкретной задачи генерируется несколько схожих, используя модель из статьи выше, и на них дообучается LLM; обучение своё для каждой отдельной задачи. Достигают 61.9%, что выше среднего человеческого результата)

UPD: забыл написать, что предсказания автора бенчмарка полгода назад было, что по окончанию соревнования результат будет 50-56%. Так что немного опередили его ожидания!

BY Сиолошная





Share with your friend now:
group-telegram.com/seeallochnaya/1996

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from tr


Telegram Сиолошная
FROM American