Telegram Group & Telegram Channel
Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://www.group-telegram.com/fr/gonzo_ML.com/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://www.group-telegram.com/fr/gonzo_ML.com/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://www.group-telegram.com/fr/gonzo_ML.com/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models



group-telegram.com/gonzo_ML/3175
Create:
Last Update:

Попытался прикинуть в режиме блиц, что такого важного и интересного произошло в AI в этом году. Ниже результат примерно десятиминутного размышления, что быстро всплыло из памяти. Плюс ещё полчаса-час на то, чтобы это раскрыть. Наверняка что-то важное забыл и если бы я потратил больше test time compute, наверное, результат был бы точнее, но в таком режиме тоже интересно.

Итак, мой список, не то чтобы по важности, просто по порядку вспоминания.

1. Test-time compute

Примерно с o1 (https://openai.com/index/learning-to-reason-with-llms/) открылась эра test-time compute, появилось новое измерение, по которому можно скейлить модели.

Ну как появилось, в принципе его следы и раньше можно найти. Те же варианты прогнать CNN на нескольких аугментациях и усреднить результат, или там Tailoring (https://www.group-telegram.com/fr/gonzo_ML.com/392), оно тоже сюда. Но сейчас прям sputnik moment, особенно с o3 (https://www.group-telegram.com/fr/gonzo_ML.com/3104). Есть и у других игроков что-то из этой серии, Gemini 2.0 Flash Thinking Mode (https://ai.google.dev/gemini-api/docs/thinking-mode) или QwQ (https://qwenlm.github.io/blog/qwq-32b-preview/).

Следующий год будет сильно про это.

2. SSM идут в массы.

За год появилось много новых SSM и SSM-Transformer гибридов (https://www.group-telegram.com/fr/gonzo_ML.com/2919), и история продолжает развиваться. Из свежего, например, Bamba (https://huggingface.co/blog/bamba) или Falcon3-Mamba (https://huggingface.co/blog/falcon3).

3. Реальная конкуренция в мире LLM

Если год-два назад была примерно одна лучшая LLM -- от OpenAI, то теперь есть как минимум три топовых коммерческих: от Anthropic, OpenAI, Google, и несколько хороших открытых: Llama, Gemma, Qwen, да и ещё что-то наверное можно добавить. В повседневных делах у меня моделью #1 стал Claude 3.5 Sonnet, он вытеснил модели OpenAI как точку входа.

4. LLM теперь мультимодальные

Большинство топовых LLM уже вовсю мультимодальные, принимают на вход не только текст, но и звук с картинками. GPT, Gemini, Claude, Llama, ... все умеют что-то кроме текста. Тихо и без революций это просто стало реальностью.

5. LLM для написания кода стали реально полезны

Генерация кода за последний год очень прокачалась, с помощью моделей можно написать код гораздо быстрее. Я активно пользуюсь этим для генерации разного типового кода, например, для визуализации или обработки данных, это экономит мне кучу времени. Ради эксперимента также написал Flutter приложение с питоновским бэкендом за выходные, флаттера я перед этим не знал вообще. Без Claude/Copilot/Gemini хз сколько бы я это делал, точно не выходные.

Неидеально, в некоторых случаях не срабатывает, как мне нужно, но во многих срабатывает. После VSCode + Copilot или Colab со встроенным Gemini работать в Kaggle ноутбуке без этого вообще уныло, как без руки, начинаешь остро чувствовать потерянное время.

В 2017-м написал статью в Форбс про то, что "программисты в опасносте" (https://www.forbes.ru/tehnologii/341535-mashiny-vmesto-inzhenerov-pochemu-iskusstvennyy-intellekt-doberetsya-i-do), ну вот мы приближаемся.

С другой стороны прямо сейчас происходит большое разделение. Кто умел программировать, становится в разы и на порядки продуктивнее, а кто не умел -- имеет шансы и не стать вообще. "Богатые богатеют".

6. Генерация видео на подходе

Sora очень долго ехала от анонса до доступности, но зато за это время появилось сколько-то альтернативных наработок. Если в момент анонса OpenAI был примерно одним и единственным лидером, то сейчас уже это не так и мир многополярен.

7. Нобели за нейросети

Приятно.

Кроме того, нейросети уже вовсю меняют науку. Не то, чтобы это только в последний год происходило, но, кажется, количество понемногу переходит в качество.

8. Открытые модели рулят

Мне всегда казалось, что опенсорс примерно года на полтора отстаёт от коммерческих LLM, ну и в принципе, наверное, оно где-то так и есть, если смотреть на доступные способности там и там. Но всё равно, всё то, что появилось в опенсорсе (или просто в опен) продолжает удивлять -- новые ламы, джеммы и прочее разное намного лучше, чем всё что было ранее.

9. World models

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3175

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups.
from fr


Telegram gonzo-обзоры ML статей
FROM American