Telegram Group Search
OpenAI показали GPT-4.1

Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus. Модели уже доступны в API.

По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.

Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.

Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее на ряде бенчей. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.

@ai_newz
Яндекс запускает бета-тест YandexGPT 5 с reasoning-режимом

Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.

В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.

Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.

В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!

@ai_newz
Microsoft выпустила веса BitNet модели (спустя год)

Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.

Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.

Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.

Веса

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили бету своего Deep Research

В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.

А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана 😭.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
💥Итак, эта тёмная лошадка Mogao оказалась новой text2image моделью Seedream 3.0 от ByteDance

На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.

Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.

На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.

Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.

Тех репорт
Демо (на китайском)

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Через o3 минуты стрим у OpenAI

Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.

https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_newz
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
А вот и первые независимые бенчи o4-mini

Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.

В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.

@ai_newz
Релиз Gemini 2.5 Flash

Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).

Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.

Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.

@ai_newz
Нейродайджест за неделю (#65)
Жаркая неделя для ЛЛМ

LLM
- GPT-4.1 — превосходит 4o во всем, гораздо лучше следует промпту и 1М контекста по API.
- YandexGPT 5 с reasoning — открыли публичный бета‑тест, это первый ризонер на ру рынке.
- BitNet 1.58 — спустя год Microsoft выложили обещанные веса. Мощнейшая оптимизация, но есть нюансы.
- Anthropic Research Beta — все то же самое, но этот ещё и может пошерстить персональные данные.
- o3 и o4-mini — OpenAI снова показали, кто здесь батюшка: разнос бенчей, нативно используют тулы прямо во время ризонинга. Вот аналитика от Artificial Analysis.
- Gemini 2.5 Flash — дитя pro версии, значительно лучше предшественника 2.0, конкурент o4‑mini.

Генеративные модели
- Seedream 3.0 от ByteDance — Темная лошадка под именем Mogao, которая заняла первое место на Image Arena, оказалась детищем Тиктока. Данных нет, но она всё ещё делит топ с GPT‑4o.

Прочее
- Stargete под вопросом? — Про влияние Трампа на рынок AI.

> Читать дайджест #64

#дайджест
@ai_newz
🚨 Стелс GenAI стартап ищет Principal/Lead AI Engineer и Backend Engineer 🚨

Ребята (ex-FAANG) собирают очень сильную команду в европейском стелс-стартапе, где строят модели для image/video generation с фокусом на генерацию людей. Обучают Foundation-модели с нуля, включая весь стек: от сбора и разметки датасетов масштаба миллиардов изображений до pre-training, post-training, fine-tuning и distillation.

Как Principal AI Engineer Вы сможете возглавить небольшую команду и влиять на все: от архитектуры и пайплайна до финального продукта.

Что ожидаем от кандидата:
• 5+ лет опыта в deep learning (LLM/GenAI).
• Опыт в тренировке диффузионных или flow-based моделей — огромный плюс.
• Большим плюсом будет:
• опыт распределенной тренировки large-scale моделей (multi-node / 128+ GPUs),
• опыт дизайна архитектур моделей,
• опыт ведения небольшой команды.

Команда 🔥
У ребят очень мощный состав, в том числе выходцы из DeepMind, Meta и др. Команда работает удалённо, преимущественно в EU time zone, с выездами на оффсайты.

Условия:
• Вилка: $150k – $300k.
• Дают опционы — настоящие, не фантики.
• Много свободы, крутая миссия, настоящий шанс построить что-то фундаментальное.
• Возможна релокация в Европу.



Также ребята ищут
🛠 Python Backend Engineer (Kubernetes, Highload, ML APIs)

Что предстоит делать:
• Разрабатывать highload Python-сервисы для ML-инференса.
• Оборачивать ML-инференс в API и разворачивать в прод с использованием Kubernetes/Docker.
• Настраивать очереди задач, логирование, мониторинг.

Идеальный кандидат:
• 5+ лет опыта в backend/system engineering, глубокий опыт в системном дизайне.
• Уверенное владение Python (или другим OOP-языком: Go, Rust, Java).
• Строил масштабируемые системы с нагрузкой и сложной логикой (распределённые очереди, сложные API, кэширование, пайплайны).
• Работал с ML-инфраструктурой или API над ML-инференсом — большой плюс.
• Умеет разбираться в сложных задачах и брать на себя ответственность, без микроменеджмента.

Мы предлагаем:
• Свободу в архитектурных решениях.
• Участие в создании масштабного продукта с нуля.
• Вилка: $100k – $200k и опционы.
Возможна релокация в Европу.


По обеим вакансиям, чтобы податься нужно заполнить гугл форму, а затем написать в ЛС 👉 @genai_max.
В сообщении прикрепляйте LinkedIn/резюме/портфолио – всё, что может показать, насколько вы круты.

Я лично рекомендую этих ребят. Знаю команду и знаю, над чем работают — это будет огонь!

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Мини-отчет о моих свеже-опубликованных статьях. Этот год выдался очень продуктивным и мы сильно попотели нашим статьям очень повезло. В итоге у нас 3/3 статей принято на топовые конференции, и все три получили дополнительные awards. Я работал в основном над генерацией картинок и видео, и немного над ускорением LLM.

1️⃣Autoregressive Distillation of Diffusion Transformers – CVPR25, Oral

TL;DR статьи: В обычной диффузии мы семплируем картинки по шагам, где следующий семпл зависит только от одного предыдущего. Мы же дисстилировали diffusion transformer в авторегрессионную архитектуру (как LLM), где используется вся история семплов,и это позволило существенно увеличить качество картинки при очень быстрой генерации в 3–4 шага. Получили SOTA в своем размере на Imagenet-256 и на text2image генерации в 3 шага (1.7B параметров).

Наша статья получила на CVPR высшую награду – Oral (это 18-минутная презентация со сцены, куда выбирают только самые лучшие работы), тогда как остальные статьи просто вывешивают постеры. Oral на CVPR получают < 1% из всех засабмиченых статей.

В этой статье я последний автор – это тот, кто вел и руководил проектом (по сути профессорская роль). Я придумал идею, выдал бейзлайн модели и расписал своему интерну Юнгмину (первому автору) какие эксперименты нужно провести, и какие цели мы преследуем в этом ресерче. А Юнгмин виртуозно все реализиовал, выдавив весь сок из модели на бенчмарках.


Мой интерн выложил даже код.

2️⃣ FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute – CVPR25, Spotlight

TL;DR статьи: Ускорили diffusion transformer. Мы показали ,как запускать text2image и tex2video генерацию на 80%, 60% либо 40% компьюта с минимальными потерями в качестве. Достигается это за счет того что мы адаптивно меняем размер DiT патча во время инференса.

Тоже статейка с нашим интерном. Она тоже получила Award - Spotlight. Это презентация работы со сцены на 4 минут. Spotlight получили < 3% лучших статей из 13 тысяч засабмиченных.

3️⃣ Judge Decoding: Faster Speculative Sampling Requires Going Beyond Model Alignment – ICLR25, Oral

TL;DR статьи: Метод семплинга, которыйсильно ускоряет большие LLM. Мы ускорили Llama-3.1 405B в 9× раз с помощью использовани 8b модели в качестве драфта, практичесик без потерь в качестве.

Тут было много драмы, статья с двух ног влетела в топ-3 сильнейших статей по LLM на ICLR на основе среднего рейтинга ревьюеров (еще до вынесения решения.) Я уж думал будет железный Oral, но в итоге дали всего-лишь Spotlight. Мы подрасстроились, а через несколько недель пришло письмо, что статью все-таки выбрали на Oral (на ICLR это 12-минутная презентация). В этом году Oral получили только top 1.8% лучших статей! Интерн будет презентовать ее через пару дней в Сингапуре – я, к сожалению, до туда не долетел. Но, надеюсь, увидимся на CVPR в Нэшвилле!

#резерч #personal #конфа
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/29 07:34:16
Back to Top
HTML Embed Code: