Telegram Group & Telegram Channel
Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.



group-telegram.com/cryptoEssay/2201
Create:
Last Update:

Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.

BY e/acc





Share with your friend now:
group-telegram.com/cryptoEssay/2201

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from hk


Telegram e/acc
FROM American