Telegram Group & Telegram Channel
Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.



group-telegram.com/cryptoEssay/2201
Create:
Last Update:

Спустя сутки тестирования, можно смело сказать что R1 это очередной прорыв. За последние 3 года в ИИ прорывы обычно идут волнообразно: новые способности моделей (SD, GPT-4), а затем существенная оптимизация (mini, 4o, SDXL).

R1 по независимым бенчамаркам действительно показал очень близкие (где-то даже несущественно опережающие) результат по сравнению с сегодняшней SotA моделью o1. При этом, больше чем в 30 раз дешевле, полностью открытые веса, можно запускать локально, дистиллят для микроволновок (работает на любом M4+) и подробный очень классный пейпер с описанием процесса разработки модели.

Главное отличие от стандартного метода — в использовании RL вместо условно "ручного" обучения через SFT. То есть, цепочки рассуждения и самопроверки генерируются моделью без использования примеров, заранее подготовленных человеком.

Другими словами, модель научилась рассуждать и делать reasoning сама, без предварительного обучения реальными примерами. Так же как это сделал AlphaGo или AlphaZero. Интересный пример в пейпере, где модель пытается решить сложную задачу и пишет "погодите, погодите, вот оно, я поняла!".

Эта рахитектура показывает что технически модели могут открывать знание и обучаться самостоятельно. В теории этому нет предела, и такой подход куда более масштабируем чем SFT. Я не удивлюсь, если о1-о3 модели были созданы примерно так же, но то ведь легендарно открытый OpenAI — поэтому, в отличии от китайцев, деталей мы не узнаем.

BY e/acc





Share with your friend now:
group-telegram.com/cryptoEssay/2201

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred."
from ca


Telegram e/acc
FROM American