Telegram Group & Telegram Channel
Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.



group-telegram.com/cryptoEssay/2201
Create:
Last Update:

Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.

BY e/acc





Share with your friend now:
group-telegram.com/cryptoEssay/2201

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links.
from ar


Telegram e/acc
FROM American