Telegram Group Search
Forwarded from Kantor.AI
Media is too big
VIEW IN TELEGRAM
Тем временем подкаст ТехТок возвращается после новогодних праздников :) Завтра выпускаем интервью с Сергеем Марковым про GenAI. Кстати, с момента записи интервью у Сергея уже вышла его книга, так что можно почитать электронную версию и даже заказать печатную: https://markoff.science/#book
Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?

Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряли лидерские позиции в области генеративного ИИ
Вообще, конечно, история с реакцией рынков на новости о DeepSeek V3 и R1 это пример глупости помноженной на дилетантизм и истеричную природу массового сознания в эпоху кликбейт-экономики

Коротко по тезисам:

1. Нет, DeepSeek не «умнее на голову» всех в моделей. В разных бенчмарках результаты разные, но в среднем GPT-4o и Gemini-2 лучше. Можете посмотреть на ChatBot Arena, например (https://www.reddit.com/r/LocalLLaMA/comments/1i8u9jk/deepseekr1_appears_on_lmsys_arena_leaderboard/). Даже в результатах, опубликованных в статье авторов DeepSeek (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/figures/benchmark.png) можно заметить, что в ряде тестов модель уступает, например, GPT-4o от мая 2024 года, то есть модели, которая в ChatBot Arena сейчас на 16-м месте.

2. Нет, на обучение DeepSeek не ушло 6 млн долларов «в 100 раз меньше, чем на GPT-4». В 6 млн долларов обошёлся финальный запуск обучения опубликованной модели. Тут не учитывались никакие предыдущие эксперименты, ни предыдущие версии модели, ни время людей. Чистый вычислительный бюджет на финальный запуск обучения. Эта сумма +/- такая же, как у моделей того же класса

3. Непонятно, за что пострадала Nvidia :)) Ну так-то, конечно, так им и надо, пускай снижают цены на железо, но учился-то DeepSeek на железках того самого Nvidia. И нет, теперь их не нужно меньше. И вычислительный бюджет на обучение там +/- обычный и на инференс такой большой модели (а это, напомню MoE с 671 млрд параметров, где при генерации токена используется 37 млрд параметров, то есть цена инференса там примерно как у 70B dense-модели) нужно много железа. И, естественно, успех DeepSeek отмасштабируют, вкинув ещё больше железа и сделав модель больше

4. Значит ли это, что модель плохая? Нет, модель очень хорошая. Мы с самого начала следим за коллегами из DeepSeek и с удовольствием использовали некоторые из их идей. Вообще, я бы сказал, что у нас в команде DeepSeek всегда рассматривалась как фаворит среди китайских моделей. DeepSeek лучше подавляющего большинства open-source-моделей, и это очень круто. Искренне рады за китайских коллег и за прогресс в области LLM-строения и машинного обучения в целом

5. В некоторых источниках пишут, что DeepSeek якобы полностью решил проблему «галлюцинаций». Nyet

Я думаю, что паника и шумиха случилась из-за того, что на западе обычно плохо знают про состояние дел в китайском ML, среди многих американских и европейских специалистов наблюдалось немного пренебрежительное и снисходительное отношение к Китаю в области ИИ. Дескать: ну что они там могут сделать, клепают свои низкокачественные плохо воспроизводимые работы, куда им с белым человеком тягаться? Всё это умножилось на антикитайскую риторику властей США, а при Трампе фокус на Китае как на главном противнике усилился. Помните истерическую статью Ашенбреннера? Теперь вот Гари Маркус вопит, требует наказать Цукерберга за Llama, дескать из-за опен-сорса китайцы украли все секреты. Это, конечно, типичный пример того, как валят с больной головы на здоровую. Виноваты в недостаточном прогрессе открытых моделей в США скорее люди типа Маркуса, со своей истерикой про опасности ИИ, запретительными и просто глупыми регуляторными инициативами и пр. «Знает кошка, чьё мясо съела»

Ну а в целом акции отрастут, ресурсы выделят, идеи получат широкое распространение, модели будут становиться лучше, прогресс не остановить (надеюсь)

Пусть расцветают сто цветов, пусть соперничают сто школ © Мао Цзэдун
Forwarded from Dealer.AI
Над поднять просмотры мемасиком.
А вот скажите, есть ли среди вас кто-то, кто рубит в low-level-ML? Руками под CUDA писать, оптимизировать потоки данных, кэши, вот это всё? Если да, то черкните мне в личку (@oulenspiegel), возможно у меня для вас будет прямо хорошее предложение
Ну, с китайским новым годом!

Alibaba выпустила новую версию своей модели Qwen — Qwen 2.5 Max

— превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench и прочия и прочия
— подход к обучению классический (предобучение на широких данных + SFT + RLHF)
— архитектура MoE

Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
Чат: https://chat.qwenlm.ai (нужно выбрать модель Qwen2.5-Max)
HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
Обсуждение на reddit: https://www.reddit.com/r/singularity/comments/1ic5k67/its_chinese_new_year_qwen_25_max_beats_deepseek/
This media is not supported in your browser
VIEW IN TELEGRAM
Научишь искусственный интеллект всему, что умеешь сам? 😵‍💫

Ищем в нашу технологичную команду AI-тренеров, которые помогут нейросетям складывать слова в мощные и грамотные тексты.

Если твои лонгриды разлетаются на цитаты, а AI уже давно стал близким другом — выбирай вакансию и откликайся:

👆 AI-тренер: редактор

👆 AI-тренер: англоязычный редактор-переводчик

👆 Руководитель команды AI-тренеров

Возможно, это тот самый случай, когда пригодится грамота за участие в «Русском медвежонке» 💫
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/02/24 17:48:05
Back to Top
HTML Embed Code: