Telegram Group & Telegram Channel
По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.



group-telegram.com/epsiloncorrect/239
Create:
Last Update:

По случаю китайского нового года наши китайские товарищи подсуетились и выпустили сразу три интересных релиза. Хотелось бы собрать их в один пост, и заодно поспекулировать про наших слоняр китов DeepSeek.

Начнём с MiniMax-01 – первой сильной открытой модели с контекстным окном в 4 миллиона токенов. Напомню, что до этого рекорд держал наш Gemini Pro 1.5 с 2 миллионами, конкуренты ограничивались 100-200 тысячами. MoE архитектура, 456 миллиарда параметров, из них 46 активированных. По перформансу – облегчённая LLaMa 405b, но сильно шустрее. Прорывов по бенчмаркам особых нет, просто хорошая модель.

Продолжим не по порядку выпуска (чтобы подписчикам жизнь мёдом не казалась): вчера Alibaba анонсировал доступную пока только по API Qwen 2.5 Max. Пост на детали скуп, но поигравшись с интерфейсом на HuggingFace можно понять, что перед нами – сырая большая модель на 500-800 миллиардов параметров. Выглядит, как сигнал о том, что сильные базовые модели у Alibaba тоже есть.

Наконец, DeepSeek R1, про который не написал разве что ленивый. Самое удивительное в повальной волне хайпа в том, что результаты этой модели абсолютно предсказуемо вытекают из выпущенной в декабре DeepSeek-v3. Модель на 37 млрд. активированных из 671 млрд. параметров примерно соответсвует Gemini 1.5 Pro 002 в математике и общих знаниях на английском, но опережает в программировании (хоть до короля Sonnet 3.5 и не дотягивает). Вроде ничего особенно удивительного, компания много итерировала над моделями-специалистами для кода, перформанс на остальных бенчмарках не вызывает удивления.

На основе v3 выпустили "рассуждающую" модель R1, которая сильно подрезала по цене O1 от наших любимых конкурентов. Бенчмарки на уровне O1, цена – более чем в 10 раз меньше; помимо выпуска весов DeepSeek достаточно подробно описали весь свой пайплайн с довольно интересным устройством обучения с подкреплением. На первое время ещё и доступ оставили бесплатным – что на сайте, что в приложении. По бенчмаркам – примерно на уровне 2.0 Flash Thinking и O1, но открытые веса сделали своё дело и модель получила очень много пиара. Ответит ли чем нибудь OpenAI, Google и Anthropic? Скорее всего, скоро получим ответ.

Теперь про цену обучения – многие сми тиражируют стоимость затрат на обучение, составившую в сумме $5.5 миллиона. Я хочу объяснить, что в целом это не сильно неожиданная цифра: например, про неё отлично написал Дарио Амодей (CEO Antropic): инновации в архитектуре и процессе обучения делают обучение эквивалентных моделей менее затратным. Только вот вместо того (или вместе с тем), чтобы выпускать сверхдешёвые модели мы продолжаем увеличивать размер моделей, потому что ценность более способных моделей чаще всего сильно выше, чем у дешёвых, но менее способных. Как мне кажется, единственные акции, которые должны были упасть – это акции меты, ведь можно оценить что на тренировку LLaMa 405b они не так давно потратили ~$50 миллионов. Для сравнения, не очень успешная в тренировке LLMок компания DataBricks тренировала MoE модель с очень близкими 36 млрд. активированных параметров за $10 млн.

Почему на релиз классной, но не выдающейся открытой модели так бурно отреагировал мир? Мне кажется, хороший аналитический фреймворк представлен в книге "The Revolt of the Public and the Crisis of Authority in the New Millennium" Мартина Гурри. В ней представлен конфликт элит и "периферии", которые с развитием интернета и других современных технологий получили доступ к инструменам самоорганизации, получения, и распространения информации, которые раньше контролировались элитой. В результате – стойкая неприязнь к правительству, цепочка "фейсбучных революций", избрание Обамы и, затем, Трампа, фейк ньюз, ковидные конспирологические теории и вот все наши славные 2020е. Неприязнью к "элитным" провайдерам сильных LLMок, которые не делятся весами и способами тренировки, как мне кажется, и можно объяснить грохот в новостях. Кстати, доступ к передовым знаниям почти в любой области, как мне кажется, сильно недооценённый фактор будущего подрыва доверия к науке – ведь скоро каждый сможет проверить заявления экспертов.

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/239

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from us


Telegram epsilon correct
FROM American