Telegram Group Search
#дайджест

Дайджест ML/AI за неделю с 17 - 23 Ноября 2025

Экспериментальный пост! По двум причинам. Во-первых, тестирую сам формат дайджестов. Во-вторых, дайджест делал не я. Я люто ненавижу писать ссылко-посты (несмотря на то, что вижу в них пользу). Ну не получается у меня. Поэтому я заплатил за это человеку, а потом отредактировал. Так что это эксперимент по добавлению других людей по эту сторону канала. Оставляйте свой фидбек!

Google: Gemini 3 Pro.
Новое поколение Gemini, SOTA по всем бенчмаркам с значимым отрывом.
ARC-AGI-2 +13%, Humanity's Last Exam +11%.
Доступна бесплатно в Google AI Studio, при этом API модели обойдется на дороже на 20% чем у Gemini 2.5 Pro.
Карточка модели, Пробовать здесь, описание бенчмарков от меня.

Google: Nano Banana Pro.
модель для редактирования изображений на основе Gemini 3. Очень сильно прокачали консистентность и следование сложным промптам. Модель уже можно попробовать в Google AI Studio или приложении Gemini. Бесплатно дается 5 генераций в сутки через free-tier Gemini App.
Пробовать здесь, Блогпост модели

Снова Google: выпустили агентскую IDE Antigravity.
Google не просто так выкупали за $2.4b команду Windsurf и наконец выпустили свой аналог Cursor/Codex. Работает достаточно удобно, доступна Gemini 3 Pro. Можно попробовать бесплатно здесь.

xAI выпустили Grok 4.1.
Модель заняла первое место на LLM Arena. В карточке очень мало бенчмарков, показали только эмоциональный интеллект и creative writing, так что видимо модель оптимизирована под AI goth gf.
Карточка модели

OpenAI заменяет GPT-5.1-Codex на GPT-5.1-Codex-Max.
Сочувствуем если вы успели привыкнуть к старой модели за её долгую (6 дней) жизнь. Тоже небольшой рост бенчмарков, минорный апдейт.
Карточка модели

Tencent выпустила HunyuanImage 3.0.
Открытая мультимодальная MoE-модель на 80B параметров, 14B активных, по бенчам из собственной статьи обходит Nano Banana не pro.
Код здесь, попробовать здесь (надо выбирать почту для входа)

Qwen-2-VL-7B научили играть в Genshin Impact
Причем без использования RL. При этом модель показывает генерализацию и на другие гачи игры .
Летсплей от 7B модельки, Статья, разбор статьи в сиолошной

Half-Life 3
Не анонсировали :c
🔥35👎25👍9🤔41
Nanobana Pro конечно совсем не впечатляет. Все пишут, что она решает сложные задачи прямо на изображении. Но я попросил её добавить на мой ноут стартап который принесет мне миллиарды долларов и получил только эту картинку
149🤔12😢41👍1👎1
Forwarded from AI[ex]Time
Я больше не пишу прям про каждый релиз swe-rebench, просто знайте, что каждый месяц он стабильно обновляется и во вкладке Insights есть какие-то интересные наблюдения.

Но сейчас напишу – мы только что добавили Opus 4.5, чтобы наверняка проверить, что Anthropic вчера не соврали. И действительно, у нас он тоже занимает теперь первое место. Обратите еще внимание, как упала цена и потребление токенов по сравнению с Opus4 😘

Gemini 3 Pro на подходе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
13🤔6
В IT компаниях бывает только две проблемы:

1. Команды общаются между собой слишком мало.
2. Команды общаются между собой слишком много.

Эта шутка доступна от грейда синьор и выше
12226🤔9👍1😢1
У меня есть бизнес идейка, послушайте, а что если...
49🔥33🤔21
27 сентября в Москве прошла Practical ML Conf 2025 — хардовая конференция, где лидеры ML/AI-рынка обсуждают практическое применение машинного обучения.

В программе были доклады про ИИ в e-commerce и финансах, оптимизацию инференса, мультимодальные системы и генеративные модели для рекомендаций.

Особенно запомнился технический доклад CTO Yandex R&D Алексея Колесова — о том, как YandexGPT 5.1 научили лучше помнить факты, работать с редкими знаниями и устойчиво обучаться в online-RL.

На стендах в экспозоне можно было: тестировать ML-сервисы Яндекса, проверять интеллект Алисы, пробовать SourceCraft Code Assistant, играть в кастомный раннер от Плюса и Фантеха, а ещё — знакомиться с робо-собаками и роботами-гуманоидами на Leshy OS.

Записи докладов Яндекса, Sber AI, Т-Банка и других компаний уже есть в VK Видео и YouTube. Например, точно стоит посмотреть:

— «Математика и язык» от Андрея Окунькова.
— «Создание памяти для LLM на примере GigaChat» от Павла Гуляева.
— «Генеративные рекомендательные технологии: что работает в Яндексе» от Николая Савушкина.

Реклама ООО «ЯНДЕКС» ИНН 7736207543
1210👎3😢2🤔1
Первый курс в магистратуре по ML если бы я был деканом.

Обязательные курсы:
- Просмотр аниме "Психо-паспорт"
- Угадывание содержания статей по абстрактам. Экзамен: определение китайских статей
- Скроллинг Твиттера

Курсы по выбору:
- Критика Юдковского в Интернете.
- Создание паблика с мемами про вагонетки и шогготов.
- Введение в рисование графиков экспонент.
- Прикладной слив персональных данных.
- Углубленное использование команды vllm serve.
- Основы создания бенчмарков с n=1.
- Введение в product-free стартапы с уклоном в AI safety.
- Подготовка резюме для Palantir.

Курсовая работа: Kaggle соревнование по построению кибергулага
15036😢13🔥11👎4👍2🤔2
https://x.com/iclr_conf/status/1994104147373903893

Произошел слив данных авторов и ревьюеров ICLR, а так же других конференций, которые работали через OpenReview.net

Организаторы ICLR попросили обращаться к ним в случае угроз и попыток подкупа, а так же обещали максимальное возмездие в случае использования слитой информации. Как будто это остановит желающих поквитаться с ревьюером #2

Готовимся к череде загадочных нападений в коридорах университетов
674🔥1
Мы сами создали этот мир
115😢157
Кент: могу пореферить в хорошее место

Куда он тебя реферит:
13610
Коротко о том почему в моей книге не будет ллмного текста

😱
Please open Telegram to view this post
VIEW IN TELEGRAM
118👍82🤔2
#дайджест

Дайджест ML/AI за неделю с 24 - 30 Ноября 2025

Anthropic: Claude Opus 4.5.
Opus 4.5 - SOTA на кодинг-бенчмарках и агентских задачах. Кроме того, цену модели снизили в 3 раза до $5/$25.
Карточка модели, swe-rebench.

Black Forest Labs: FLUX.2
Новый генератор изображений с Mistral 3 24B в качестве энкодера. Крепкий оупенсорс, немного слабее Nano Banana Pro, но дешевле.
Попробовать здесь, Веса, Блогпост, Технический блогпост

Safe Superintelligence Inc.: Илья
Илья Суцкевер в полуторачасовом интервью у Дваркеша Пателя. Илья считает что эпоха масштабирования закончилась и начинается эпоха ресерча.
Интервью, Основные тезисы

США: Genesis Mission
Правительство США увеличивает стратегические инвестиции в AI. В дополнение к уже существующей с начала года программы Stargate по строительству новой инфраструктуры, добавилась Genesis Mission. Программа консолидирует компьют, научные данные и экспертизу национальных лабораторий и предоставляет их AI компаниям с целью ускорения науки.
Более подробный пост, Документ - Разбор документа

DeepSeek: DeepSeekMath-V2
685B модель заточенная под решения математических олимпиад. Показывает себя на уровне Gemini Deep Think, выигравшем золото на IMO. Как этого добились можете прочитать в оригинальной статье, или для ленивых в разборе статьи.
Модель на HF

Tencent: HunyuanOCR 1B
1B мультимодальная VLM для OCR. Модель доступна на GitHub и Hugging Face, поддерживает 100+ языков и решает задачи от распознавания уличных вывесок до полного разбора документов с таблицами (HTML), формулами (LaTeX) и субтитров. На некоторых бенчах обходит даже Qwen3-VL-4B.
Репорт, Модель на HF

Microsoft: Fara-7B
Компактная открытая модель для автономного управления UI по скриншотам. Предсказывает координаты кликов и нажатия клавиш. 73.5% успеха на WebVoyager — выше GPT-4o!
Блог пост, Модель на HF

Meta: AdvancedIF Benchmark
Новый бенчмарк для тестирования многослойного следования инструкциям в LLM. В наборе — 1600+ промптов, каждый содержит 6 одновременных условий: формат, стиль, логические зависимости, запреты, перекрёстные ограничения и др. Проверяются как однократные ответы, так и управление через системные промпты и удержание контекста в длинных диалогах.
HF
🤔147👎54👍2
Когда благодаря сливу авторов и ревьюеров ICLR нашел виноватого в том, что ты ничего не можешь опубликовать
105😢10👍2
Привет, это Yandex for Analytics

Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️

🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом

💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👎229👍5🔥32
Посмотрел трансляцию Data Dojo от Яндекса. К слову, самурайских дуэлей там не было. Оказалось, что это встреча ML-сообщества с докладами. Вроде как ориентированная больше на начинающих в ML, но уровень докладов был не меньше, чем на конференциях для профессионалов.

Мне больше всего понравился первый доклад от Сергея Овчаренко про итоги года в мультимодальной генерации. В последнее время я больше всего занят книгой и выживанием без зарплаты, так что не успеваю за всем следить.

Из доклада узнал, что там творится в далекой от меня области звука. Я что-то слышал про аудио токены, но не знал, что всё шагнуло намного дальше. Оказывается, уже начинается тренд на голосовых агентов. То есть end-to-end аудио модель которая слушает запрос пользователя, делает ризонинг, дергает тулы и генерирует голосовой ответ вообще не проваливаясь в текст.

Вторая часть обзора была ближе к моей теме, про VLM. Главным трендом года, конечно, стало редактирование изображений: ChatGPT Image и Nanobanana, Qwen-Image и всё такое прочее.

Наиболее общий тренд — это omni-модели. Это даже не про частные попытки вроде Qwen2.5-Omni, а в целом про объединение разных модальностей в одной модели. Это видно на примере редактирования изображений, где мы перешли от простой генерации картинки по промпту к объединению инструкций и изображений. Это видно по Sora, Veo3 и другим вышедшим моделям генерации видео, которые делают видео и звук одной моделью. И видно по попыткам делать world models вроде Genie 3, генерирующим интерактивные миры и таким образом объединяющим команды пользователя и видеоряд.
👍2217🔥87
POV: ты видишь как без технологий человечество откатывается в каменный век (Cloudflare упал N-ный раз за месяц, нельзя вызвать Bolt)
58😢3
It's over
104😢14
https://newsletter.dancohen.org/archive/the-writing-is-on-the-wall-for-handwriting-recognition/

Tldr: Gemini 3 Pro может распознать рукописный текст настолько проклятый, как на фотографии
🔥712👍1
Полезного контента ещё какое-то время не будет потому что админ на Yandex Cup 25

Вместе с @senior_augur и @ai_newz
👍46🔥1784
2025/12/06 23:02:55
Back to Top
HTML Embed Code: