Telegram Group & Telegram Channel
Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели [[0 1 0 0 2 0 ...], [2 0 1...],...], каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим работает часть мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).



group-telegram.com/seeallochnaya/2163
Create:
Last Update:

Проснулись-потянулись, изучили детали тестирования модели o3. К сожалению, много интересной информации есть только про замеры на ARC-AGI, поэтому про него и будем говорить. Во первых, вот четыре моих поста, которые рассказывают идею, заложенную создателем теста, и некоторый бэкграунд о том, насколько хорошо такие задачи решались (и почему не решались): раз, два, три, четыре. Последние два опциональны, первые два рекомендую к ознакомлению перед дальнейшим чтением.

Итак, сходу две важные заметки.
Первая:
— в тренировочную выборку o3 добавили 75% тренировочной выборки ARC (300 задач из 400 доступных). То есть модель точно знакома с форматом заданий, и примерно понимает типы преобразований паттернов в датасете. Тренироваться на тренировочной выборке — это не проблема, она для этого и существует. В эпоху до LLM, да и в её первые годы так всегда делали, только примеров было куда больше, потому что глупые модели не могли быстро выучиться
— одной из моих основных критик ARC'а было как раз то, в каком формате подаются данные в модели [[0 1 0 0 2 0 ...], [2 0 1...],...], каждая цифра — отдельный цвет квадратика). Это сильно усложняет восприятие задач моделью и обнаружение пространственных паттернов; у нас над этим работает часть мозга, натренированная на миллиардах секунд визуальной и пространственной информации.
— так что добавление примеров в тренировку — это, в моём представлении, попытка показать модели, как понимать входные данные. OpenAI говорят, что они не дообучали модель никак отдельно, то есть эти 300 примеров были добавлены вместе с сотнями тысяч других задач, от программирования до математики. Та же модель, что проходит ARC, применялась для всех остальных замеров, никакой специально заточенной версии нет, это общая модель.
— сам автор бенчмарка, François Chollet, тоже не видит проблем с использованием 300 тренировочных задач для... тренировки.
— результаты, которыми хвастались OpenAI, получены на сотне других задач, тестовых и полу-приватных. Более того уже давно известно, что эти задачи содержат другие паттерны, которые сложнее в том числе и для людей (померили, насколько много задач решают бычные люди тут и там, и оказалось, что во втором случае процент меньше). Собственно, François так и задумывал: он хотел тестировать, что модели могут находить и комбинировать новые паттерны на лету, в его представлении это и было отражением интеллекта
— считаю важным отметить, что возможность закинуть любые задачи, для которых существует верифицируемый ответ, в процедуру тренировки o1/o3 моделей, так, что это принесёт плоды и ничего не сломает — это очень круто, так как показывает обобщаемость (и вместе с тем ограниченность) метода
— закономерно, результаты на 400 задачах лучше (ведь модель видела 300 из них, в том числе и ответы), но на новой сотне они тоже очень высокие: 87.5% (я не знаю, как получилось пол прцоента при 100 задачах, не спрашивайте). В среднем, участвовавший в онлайн-разметке человек решает 75% (хотя по другим данным 60%, так что задачи точно не «такие легкие»).
— Итого: на этой сотне новых задач o3 показывает феноменальные результаты, которые очень удивили авторов бенчмарка. Они не были к этому готовы, потому пишут: «Это не просто постепенное улучшение, а настоящий прорыв, знаменующий качественный сдвиг в возможностях ИИ по сравнению с прежними ограничениями LLM. o3 — это система, способная адаптироваться к задачам, с которыми она никогда раньше не сталкивалась». К сожалению, мы не знаем, является ли o3 системой (из нескольких компонент) или же это просто одной LLM, которая пишет оооочень длинные цепочки рассуждений, сама себя проверяет и приходит к ответу. Для o1 это верно, и если верно для o3, то это безумно круто.

И вдобавок:
— o3 показывает результаты гораздо лучше, чем системы, разработанные в рамках соревнований за миллион долларов в этом году (писал тут). А там люди не то что на 400 тренировочных примерах обучали свои модели, они генерировали СОТНИ ТЫСЯЧ синтетических примеров, и уже на этом тренировались (200 и 400 тысяч вот в этой статье).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2163

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from fr


Telegram Сиолошная
FROM American