Telegram Group & Telegram Channel
DeepSeek продолжает знатно всех будоражить. Спасибо китайцам, что всех расшевелили!

Дарио Амодеи написал эссе про экспортный контроль:
https://darioamodei.com/on-deepseek-and-export-controls

Но мне там не про экспортный контроль понравилось, а вот это вот:

"In 2020, my team published a paper suggesting that the shift in the curve due to algorithmic progress is ~1.68x/year. That has probably sped up significantly since; it also doesn't take efficiency and hardware into account. I'd guess the number today is maybe ~4x/year."

Оценка алгоритмического прогресса в 4x за год — это очень интересно.

И в целом раздел про динамику ИИ разработки любопытен. Там упоминаются три разные динамики:

1. Scaling laws. Вбухиваешь больше compute, получаешь лучше качество (при прочих равных).
2. Shifting the curve. Те самые алгоритмические улучшения, которые 4x за год.
3. Shifting the paradigm. Изменяем то, что скейлится. В 2020-2023 были предобученные модели, в 2024 появился RL и цепочки рассуждений, теперь скейлят их.

Прямо сейчас в 3-ю динамику вкладывают мало, единицы миллионов, это уже даёт хороший результат, но все работают над тем, чтобы отскейлить этот этап до сотен миллионов и миллиардов.

Ещё из интересных цифр есть стоимость обучения Claude 3.5 Sonnet: "Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number)."

А типа с трендом про 4x/год они как раз и ожидали модель уровня 3.5 Sonnet/GPT-4o и дешевле в 3-4 раза примерно сейчас. Ну, предсказывать прошлое легко.

"All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese."

Основной месседж про DeepSeek в духе, что V3 был реально инновацией, в основном инженерной, "и мы за ними следили!", а R1 типо вообще не инновация. Просто реплицировали o1. А про то, что они сделали это в опенсорсе и без какого-либо опубликованного OpenAI рецепта, молчат. По словам Амодеи, переход от V3 к R1 был простым и дешёвым (важна хорошая базовая модель, здесь это V3), и теперь можно ожидать хорошие модели с ризонингом от разных компаний.

В целом, сквозит в последних сообщениях OpenAI, Антропика и некоторых других относительно DeepSeek какое-то лёгкое обесценивание и попытка оправдаться, что мы не хуже. За Гуглом, к слову, такого пока не заметил.

Основная часть про экспортный контроль уже не очень интересная. Она о том, что DeepSeek глобально ничего не изменил, все и так туда идут, находки DeepSeek будут инкорпорированы в обучение несколько-миллиардо-долларовых моделей, которые получатся получше, чем ожидалось изначально, но всё равно потребуют миллионы GPU. AI умнее большинства людей ожидается в 2026-27 годах. И там вопрос, сумеет ли Китай собрать миллионы чипов — от этого зависит, будет мир униполярным или биполярным. И чтобы хорошие победили плохих, нужны экспортные ограничения.

Такие дела. Mixed feelings от всего эссе.



group-telegram.com/gonzo_ML/3275
Create:
Last Update:

DeepSeek продолжает знатно всех будоражить. Спасибо китайцам, что всех расшевелили!

Дарио Амодеи написал эссе про экспортный контроль:
https://darioamodei.com/on-deepseek-and-export-controls

Но мне там не про экспортный контроль понравилось, а вот это вот:

"In 2020, my team published a paper suggesting that the shift in the curve due to algorithmic progress is ~1.68x/year. That has probably sped up significantly since; it also doesn't take efficiency and hardware into account. I'd guess the number today is maybe ~4x/year."

Оценка алгоритмического прогресса в 4x за год — это очень интересно.

И в целом раздел про динамику ИИ разработки любопытен. Там упоминаются три разные динамики:

1. Scaling laws. Вбухиваешь больше compute, получаешь лучше качество (при прочих равных).
2. Shifting the curve. Те самые алгоритмические улучшения, которые 4x за год.
3. Shifting the paradigm. Изменяем то, что скейлится. В 2020-2023 были предобученные модели, в 2024 появился RL и цепочки рассуждений, теперь скейлят их.

Прямо сейчас в 3-ю динамику вкладывают мало, единицы миллионов, это уже даёт хороший результат, но все работают над тем, чтобы отскейлить этот этап до сотен миллионов и миллиардов.

Ещё из интересных цифр есть стоимость обучения Claude 3.5 Sonnet: "Claude 3.5 Sonnet is a mid-sized model that cost a few $10M's to train (I won't give an exact number)."

А типа с трендом про 4x/год они как раз и ожидали модель уровня 3.5 Sonnet/GPT-4o и дешевле в 3-4 раза примерно сейчас. Ну, предсказывать прошлое легко.

"All of this is to say that DeepSeek-V3 is not a unique breakthrough or something that fundamentally changes the economics of LLM’s; it’s an expected point on an ongoing cost reduction curve. What’s different this time is that the company that was first to demonstrate the expected cost reductions was Chinese."

Основной месседж про DeepSeek в духе, что V3 был реально инновацией, в основном инженерной, "и мы за ними следили!", а R1 типо вообще не инновация. Просто реплицировали o1. А про то, что они сделали это в опенсорсе и без какого-либо опубликованного OpenAI рецепта, молчат. По словам Амодеи, переход от V3 к R1 был простым и дешёвым (важна хорошая базовая модель, здесь это V3), и теперь можно ожидать хорошие модели с ризонингом от разных компаний.

В целом, сквозит в последних сообщениях OpenAI, Антропика и некоторых других относительно DeepSeek какое-то лёгкое обесценивание и попытка оправдаться, что мы не хуже. За Гуглом, к слову, такого пока не заметил.

Основная часть про экспортный контроль уже не очень интересная. Она о том, что DeepSeek глобально ничего не изменил, все и так туда идут, находки DeepSeek будут инкорпорированы в обучение несколько-миллиардо-долларовых моделей, которые получатся получше, чем ожидалось изначально, но всё равно потребуют миллионы GPU. AI умнее большинства людей ожидается в 2026-27 годах. И там вопрос, сумеет ли Китай собрать миллионы чипов — от этого зависит, будет мир униполярным или биполярным. И чтобы хорошие победили плохих, нужны экспортные ограничения.

Такие дела. Mixed feelings от всего эссе.

BY gonzo-обзоры ML статей




Share with your friend now:
group-telegram.com/gonzo_ML/3275

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Founder Pavel Durov says tech is meant to set you free
from fr


Telegram gonzo-обзоры ML статей
FROM American