Telegram Group & Telegram Channel
Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://www.group-telegram.com/id/gonzo_ML.com/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://www.group-telegram.com/id/gonzo_ML.com/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://www.group-telegram.com/id/gonzo_ML.com/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models



group-telegram.com/gonzo_ML/3175
Create:
Last Update:

Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://www.group-telegram.com/id/gonzo_ML.com/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://www.group-telegram.com/id/gonzo_ML.com/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://www.group-telegram.com/id/gonzo_ML.com/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3175

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from id


Telegram gonzo-обзоры ML статей
FROM American