Telegram Group & Telegram Channel
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.



group-telegram.com/data_secrets/5392
Create:
Last Update:

Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/5392

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Founder Pavel Durov says tech is meant to set you free "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from in


Telegram Data Secrets
FROM American