Telegram Group & Telegram Channel
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.



group-telegram.com/data_secrets/5392
Create:
Last Update:

Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC

Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).

Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.

До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.

Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.

Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.

Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.

Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/5392

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981.
from no


Telegram Data Secrets
FROM American