#дайджест
Дайджест ML/AI за неделю с 17 - 23 Ноября 2025
Экспериментальный пост! По двум причинам. Во-первых, тестирую сам формат дайджестов. Во-вторых, дайджест делал не я. Я люто ненавижу писать ссылко-посты (несмотря на то, что вижу в них пользу). Ну не получается у меня. Поэтому я заплатил за это человеку, а потом отредактировал. Так что это эксперимент по добавлению других людей по эту сторону канала. Оставляйте свой фидбек!
Google: Gemini 3 Pro.
Новое поколение Gemini, SOTA по всем бенчмаркам с значимым отрывом.
ARC-AGI-2 +13%, Humanity's Last Exam +11%.
Доступна бесплатно в Google AI Studio, при этом API модели обойдется на дороже на 20% чем у Gemini 2.5 Pro.
Карточка модели, Пробовать здесь, описание бенчмарков от меня.
Google: Nano Banana Pro.
модель для редактирования изображений на основе Gemini 3. Очень сильно прокачали консистентность и следование сложным промптам. Модель уже можно попробовать в Google AI Studio или приложении Gemini. Бесплатно дается 5 генераций в сутки через free-tier Gemini App.
Пробовать здесь, Блогпост модели
Снова Google: выпустили агентскую IDE Antigravity.
Google не просто так выкупали за $2.4b команду Windsurf и наконец выпустили свой аналог Cursor/Codex. Работает достаточно удобно, доступна Gemini 3 Pro. Можно попробовать бесплатно здесь.
xAI выпустили Grok 4.1.
Модель заняла первое место на LLM Arena. В карточке очень мало бенчмарков, показали только эмоциональный интеллект и creative writing, так что видимо модель оптимизирована под AI goth gf.
Карточка модели
OpenAI заменяет GPT-5.1-Codex на GPT-5.1-Codex-Max.
Сочувствуем если вы успели привыкнуть к старой модели за её долгую (6 дней) жизнь. Тоже небольшой рост бенчмарков, минорный апдейт.
Карточка модели
Tencent выпустила HunyuanImage 3.0.
Открытая мультимодальная MoE-модель на 80B параметров, 14B активных, по бенчам из собственной статьи обходит Nano Banana не pro.
Код здесь, попробовать здесь (надо выбирать почту для входа)
Qwen-2-VL-7B научили играть в Genshin Impact
Причем без использования RL. При этом модель показывает генерализацию и на другие гачи игры .
Летсплей от 7B модельки, Статья, разбор статьи в сиолошной
Half-Life 3
Не анонсировали :c
Дайджест ML/AI за неделю с 17 - 23 Ноября 2025
Экспериментальный пост! По двум причинам. Во-первых, тестирую сам формат дайджестов. Во-вторых, дайджест делал не я. Я люто ненавижу писать ссылко-посты (несмотря на то, что вижу в них пользу). Ну не получается у меня. Поэтому я заплатил за это человеку, а потом отредактировал. Так что это эксперимент по добавлению других людей по эту сторону канала. Оставляйте свой фидбек!
Google: Gemini 3 Pro.
Новое поколение Gemini, SOTA по всем бенчмаркам с значимым отрывом.
ARC-AGI-2 +13%, Humanity's Last Exam +11%.
Доступна бесплатно в Google AI Studio, при этом API модели обойдется на дороже на 20% чем у Gemini 2.5 Pro.
Карточка модели, Пробовать здесь, описание бенчмарков от меня.
Google: Nano Banana Pro.
модель для редактирования изображений на основе Gemini 3. Очень сильно прокачали консистентность и следование сложным промптам. Модель уже можно попробовать в Google AI Studio или приложении Gemini. Бесплатно дается 5 генераций в сутки через free-tier Gemini App.
Пробовать здесь, Блогпост модели
Снова Google: выпустили агентскую IDE Antigravity.
Google не просто так выкупали за $2.4b команду Windsurf и наконец выпустили свой аналог Cursor/Codex. Работает достаточно удобно, доступна Gemini 3 Pro. Можно попробовать бесплатно здесь.
xAI выпустили Grok 4.1.
Модель заняла первое место на LLM Arena. В карточке очень мало бенчмарков, показали только эмоциональный интеллект и creative writing, так что видимо модель оптимизирована под AI goth gf.
Карточка модели
OpenAI заменяет GPT-5.1-Codex на GPT-5.1-Codex-Max.
Сочувствуем если вы успели привыкнуть к старой модели за её долгую (6 дней) жизнь. Тоже небольшой рост бенчмарков, минорный апдейт.
Карточка модели
Tencent выпустила HunyuanImage 3.0.
Открытая мультимодальная MoE-модель на 80B параметров, 14B активных, по бенчам из собственной статьи обходит Nano Banana не pro.
Код здесь, попробовать здесь (надо выбирать почту для входа)
Qwen-2-VL-7B научили играть в Genshin Impact
Причем без использования RL. При этом модель показывает генерализацию и на другие гачи игры .
Летсплей от 7B модельки, Статья, разбор статьи в сиолошной
Half-Life 3
Не анонсировали :c
🔥35👎25👍9🤔4❤1
Forwarded from AI[ex]Time
Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения.
Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4😘
Gemini 3 Pro на подходе.
Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4
Gemini 3 Pro на подходе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🤔6
В IT компаниях бывает только две проблемы:
1. Команды общаются между собой слишком мало.
2. Команды общаются между собой слишком много.
Эта шутка доступна от грейда синьор и выше
1. Команды общаются между собой слишком мало.
2. Команды общаются между собой слишком много.
Эта шутка доступна от грейда синьор и выше
27 сентября в Москве прошла Practical ML Conf 2025 — хардовая конференция, где лидеры ML/AI-рынка обсуждают практическое применение машинного обучения.
В программе были доклады про ИИ в e-commerce и финансах, оптимизацию инференса, мультимодальные системы и генеративные модели для рекомендаций.
Особенно запомнился технический доклад CTO Yandex R&D Алексея Колесова — о том, как YandexGPT 5.1 научили лучше помнить факты, работать с редкими знаниями и устойчиво обучаться в online-RL.
На стендах в экспозоне можно было: тестировать ML-сервисы Яндекса, проверять интеллект Алисы, пробовать SourceCraft Code Assistant, играть в кастомный раннер от Плюса и Фантеха, а ещё — знакомиться с робо-собаками и роботами-гуманоидами на Leshy OS.
Записи докладов Яндекса, Sber AI, Т-Банка и других компаний уже есть в VK Видео и YouTube. Например, точно стоит посмотреть:
— «Математика и язык» от Андрея Окунькова.
— «Создание памяти для LLM на примере GigaChat» от Павла Гуляева.
— «Генеративные рекомендательные технологии: что работает в Яндексе» от Николая Савушкина.
Реклама ООО «ЯНДЕКС» ИНН 7736207543
В программе были доклады про ИИ в e-commerce и финансах, оптимизацию инференса, мультимодальные системы и генеративные модели для рекомендаций.
Особенно запомнился технический доклад CTO Yandex R&D Алексея Колесова — о том, как YandexGPT 5.1 научили лучше помнить факты, работать с редкими знаниями и устойчиво обучаться в online-RL.
На стендах в экспозоне можно было: тестировать ML-сервисы Яндекса, проверять интеллект Алисы, пробовать SourceCraft Code Assistant, играть в кастомный раннер от Плюса и Фантеха, а ещё — знакомиться с робо-собаками и роботами-гуманоидами на Leshy OS.
Записи докладов Яндекса, Sber AI, Т-Банка и других компаний уже есть в VK Видео и YouTube. Например, точно стоит посмотреть:
— «Математика и язык» от Андрея Окунькова.
— «Создание памяти для LLM на примере GigaChat» от Павла Гуляева.
— «Генеративные рекомендательные технологии: что работает в Яндексе» от Николая Савушкина.
Реклама ООО «ЯНДЕКС» ИНН 7736207543
Первый курс в магистратуре по ML если бы я был деканом.
Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера
Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.
Курсовая работа: Kaggle соревнование по построению кибергулага
Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера
Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.
Курсовая работа: Kaggle соревнование по построению кибергулага
https://x.com/iclr_conf/status/1994104147373903893
Произошел слив данных авторов и ревьюеров ICLR, а так же других конференций, которые работали через OpenReview.net
Организаторы ICLR попросили обращаться к ним в случае угроз и попыток подкупа, а так же обещали максимальное возмездие в случае использования слитой информации. Как будто это остановит желающих поквитаться с ревьюером #2
Готовимся к череде загадочных нападений в коридорах университетов
Произошел слив данных авторов и ревьюеров ICLR, а так же других конференций, которые работали через OpenReview.net
Организаторы ICLR попросили обращаться к ним в случае угроз и попыток подкупа, а так же обещали максимальное возмездие в случае использования слитой информации. Как будто это остановит желающих поквитаться с ревьюером #2
Готовимся к череде загадочных нападений в коридорах университетов
X (formerly Twitter)
ICLR 2026 (@iclr_conf) on X
Please open Telegram to view this post
VIEW IN TELEGRAM
#дайджест
Дайджест ML/AI за неделю с 24 - 30 Ноября 2025
Anthropic: Claude Opus 4.5.
Opus 4.5 - SOTA на кодинг-бенчмарках и агентских задачах. Кроме того, цену модели снизили в 3 раза до $5/$25.
Карточка модели, swe-rebench.
Black Forest Labs: FLUX.2
Новый генератор изображений с Mistral 3 24B в качестве энкодера. Крепкий оупенсорс, немного слабее Nano Banana Pro, но дешевле.
Попробовать здесь, Веса, Блогпост, Технический блогпост
Safe Superintelligence Inc.: Илья
Илья Суцкевер в полуторачасовом интервью у Дваркеша Пателя. Илья считает что эпоха масштабирования закончилась и начинается эпоха ресерча.
Интервью, Основные тезисы
США: Genesis Mission
Правительство США увеличивает стратегические инвестиции в AI. В дополнение к уже существующей с начала года программы Stargate по строительству новой инфраструктуры, добавилась Genesis Mission. Программа консолидирует компьют, научные данные и экспертизу национальных лабораторий и предоставляет их AI компаниям с целью ускорения науки.
Более подробный пост, Документ - Разбор документа
DeepSeek: DeepSeekMath-V2
685B модель заточенная под решения математических олимпиад. Показывает себя на уровне Gemini Deep Think, выигравшем золото на IMO. Как этого добились можете прочитать в оригинальной статье, илидля ленивых в разборе статьи.
Модель на HF
Tencent: HunyuanOCR 1B
1B мультимодальная VLM для OCR. Модель доступна на GitHub и Hugging Face, поддерживает 100+ языков и решает задачи от распознавания уличных вывесок до полного разбора документов с таблицами (HTML), формулами (LaTeX) и субтитров. На некоторых бенчах обходит даже Qwen3-VL-4B.
Репорт, Модель на HF
Microsoft: Fara-7B
Компактная открытая модель для автономного управления UI по скриншотам. Предсказывает координаты кликов и нажатия клавиш. 73.5% успеха на WebVoyager — выше GPT-4o!
Блог пост, Модель на HF
Meta: AdvancedIF Benchmark
Новый бенчмарк для тестирования многослойного следования инструкциям в LLM. В наборе — 1600+ промптов, каждый содержит 6 одновременных условий: формат, стиль, логические зависимости, запреты, перекрёстные ограничения и др. Проверяются как однократные ответы, так и управление через системные промпты и удержание контекста в длинных диалогах.
HF
Дайджест ML/AI за неделю с 24 - 30 Ноября 2025
Anthropic: Claude Opus 4.5.
Opus 4.5 - SOTA на кодинг-бенчмарках и агентских задачах. Кроме того, цену модели снизили в 3 раза до $5/$25.
Карточка модели, swe-rebench.
Black Forest Labs: FLUX.2
Новый генератор изображений с Mistral 3 24B в качестве энкодера. Крепкий оупенсорс, немного слабее Nano Banana Pro, но дешевле.
Попробовать здесь, Веса, Блогпост, Технический блогпост
Safe Superintelligence Inc.: Илья
Илья Суцкевер в полуторачасовом интервью у Дваркеша Пателя. Илья считает что эпоха масштабирования закончилась и начинается эпоха ресерча.
Интервью, Основные тезисы
США: Genesis Mission
Правительство США увеличивает стратегические инвестиции в AI. В дополнение к уже существующей с начала года программы Stargate по строительству новой инфраструктуры, добавилась Genesis Mission. Программа консолидирует компьют, научные данные и экспертизу национальных лабораторий и предоставляет их AI компаниям с целью ускорения науки.
Более подробный пост, Документ - Разбор документа
DeepSeek: DeepSeekMath-V2
685B модель заточенная под решения математических олимпиад. Показывает себя на уровне Gemini Deep Think, выигравшем золото на IMO. Как этого добились можете прочитать в оригинальной статье, или
Модель на HF
Tencent: HunyuanOCR 1B
1B мультимодальная VLM для OCR. Модель доступна на GitHub и Hugging Face, поддерживает 100+ языков и решает задачи от распознавания уличных вывесок до полного разбора документов с таблицами (HTML), формулами (LaTeX) и субтитров. На некоторых бенчах обходит даже Qwen3-VL-4B.
Репорт, Модель на HF
Microsoft: Fara-7B
Компактная открытая модель для автономного управления UI по скриншотам. Предсказывает координаты кликов и нажатия клавиш. 73.5% успеха на WebVoyager — выше GPT-4o!
Блог пост, Модель на HF
Meta: AdvancedIF Benchmark
Новый бенчмарк для тестирования многослойного следования инструкциям в LLM. В наборе — 1600+ промптов, каждый содержит 6 одновременных условий: формат, стиль, логические зависимости, запреты, перекрёстные ограничения и др. Проверяются как однократные ответы, так и управление через системные промпты и удержание контекста в длинных диалогах.
HF
🤔14 7👎5❤4👍2
Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️
Подписывайтесь:
Please open Telegram to view this post
VIEW IN TELEGRAM
👎22 9👍5🔥3❤2
Посмотрел трансляцию Data Dojo от Яндекса. К слову, самурайских дуэлей там не было. Оказалось, что это встреча ML-сообщества с докладами. Вроде как ориентированная больше на начинающих в ML, но уровень докладов был не меньше, чем на конференциях для профессионалов.
Мне больше всего понравился первый доклад от Сергея Овчаренко про итоги года в мультимодальной генерации. В последнее время я больше всего занят книгой и выживанием без зарплаты, так что не успеваю за всем следить.
Из доклада узнал, что там творится в далекой от меня области звука. Я что-то слышал про аудио токены, но не знал, что всё шагнуло намного дальше. Оказывается, уже начинается тренд на голосовых агентов. То есть end-to-end аудио модель которая слушает запрос пользователя, делает ризонинг, дергает тулы и генерирует голосовой ответ вообще не проваливаясь в текст.
Вторая часть обзора была ближе к моей теме, про VLM. Главным трендом года, конечно, стало редактирование изображений: ChatGPT Image и Nanobanana, Qwen-Image и всё такое прочее.
Наиболее общий тренд — это omni-модели. Это даже не про частные попытки вроде Qwen2.5-Omni, а в целом про объединение разных модальностей в одной модели. Это видно на примере редактирования изображений, где мы перешли от простой генерации картинки по промпту к объединению инструкций и изображений. Это видно по Sora, Veo3 и другим вышедшим моделям генерации видео, которые делают видео и звук одной моделью. И видно по попыткам делать world models вроде Genie 3, генерирующим интерактивные миры и таким образом объединяющим команды пользователя и видеоряд.
Мне больше всего понравился первый доклад от Сергея Овчаренко про итоги года в мультимодальной генерации. В последнее время я больше всего занят книгой и выживанием без зарплаты, так что не успеваю за всем следить.
Из доклада узнал, что там творится в далекой от меня области звука. Я что-то слышал про аудио токены, но не знал, что всё шагнуло намного дальше. Оказывается, уже начинается тренд на голосовых агентов. То есть end-to-end аудио модель которая слушает запрос пользователя, делает ризонинг, дергает тулы и генерирует голосовой ответ вообще не проваливаясь в текст.
Вторая часть обзора была ближе к моей теме, про VLM. Главным трендом года, конечно, стало редактирование изображений: ChatGPT Image и Nanobanana, Qwen-Image и всё такое прочее.
Наиболее общий тренд — это omni-модели. Это даже не про частные попытки вроде Qwen2.5-Omni, а в целом про объединение разных модальностей в одной модели. Это видно на примере редактирования изображений, где мы перешли от простой генерации картинки по промпту к объединению инструкций и изображений. Это видно по Sora, Veo3 и другим вышедшим моделям генерации видео, которые делают видео и звук одной моделью. И видно по попыткам делать world models вроде Genie 3, генерирующим интерактивные миры и таким образом объединяющим команды пользователя и видеоряд.
👍22 17🔥8❤7
https://newsletter.dancohen.org/archive/the-writing-is-on-the-wall-for-handwriting-recognition/
Tldr: Gemini 3 Pro может распознать рукописный текст настолько проклятый, как на фотографии
Tldr: Gemini 3 Pro может распознать рукописный текст настолько проклятый, как на фотографии
🔥71❤2👍1
Полезного контента ещё какое-то время не будет потому что админ на Yandex Cup 25
Вместе с @senior_augur и @ai_newz
Вместе с @senior_augur и @ai_newz
👍46🔥17❤8 4
