Telegram Group Search
Нейродайджест за неделю (#64)

LLM
- Llama Nemotron — 253B ризонер от Nvidia сделанный на основе Llama 3.1 405B.
- DeepCoder — затюненный под код DeepSeek R1 14B, очень маленький, да удаленький, и полностью открытый, включая датасет с кодом.
- Grok 3 API — $3/$15 за лям токенов, с неработающим fast режимом.

Генеративные модели
- HiDream-I1 — новый опенсорсный MOE-генератор картинок от Китайцев.
- Бесплатный VEO 2 — пробуем СОТА-модельку в Google Cloud.

Прочее
- Зачем что-то опенсорсить? — и почему это не просто благотворительность.
- TPU v7 Ironwood — аналог Nvidia Blackwell от Google.
- SAE Match — решаем проблемы с полисемантичностью при помощи parameter folding.

> Читать дайджест #63

#дайджест
@ai_newz
На Image Arena ещё одна загадочная t2i модель заняла первое место

Что за Mogao — непонятно, но голосов уже достаточно много чтобы уверенно судить о высоком качестве модели.

Возможно, это очередная китайская модель, по слухам от Dreamina.

@ai_newz
OpenAI показали GPT-4.1

Идёт в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. 4.1 и 4.1 mini тестили уже несколько недель на арене и openrouter, под кодовыми названиями Quasar и Optimus. Модели уже доступны в API.

По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности. Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь будет меньше забывать инструкции через одно сообщение и газлайтить пользователей.

Все модели поддерживают миллион токенов контекста, по крайней мере в API, причём за более длинный контекст не берут больше денег. Как это будет распространяться на пользователей ChatGPT — непонятно, напоминаю что у подписчиков Plus/Team всё ещё лишь 32к токенов контекста, а у бесплатных пользователей вообще 8к.

Полноценная 4.1 стоит на 20% дешевле за токен чем GPT-4o, а вот 4.1 Mini уже заметно дороже чем 4o-mini, при этом Nano тоже не является полноценной заменой 4o mini, так как она заметно слабее на ряде бенчей. Скидка на закэшированные токены теперь 75%, вместо 50% раньше, что делает 4.1 в среднем на 26% дешевле 4o.

@ai_newz
Яндекс запускает бета-тест YandexGPT 5 с reasoning-режимом

Яндекс начал публичное бета-тестирование YandexGPT 5 с reasoning (режим рассуждений). Новая модель анализирует задачи, выстраивает логические цепочки и показывает пользователю весь процесс рассуждений в реальном времени – это то, что сейчас делают все SOTA-модели.

В техническом плане тренировку модели начинали с SFT чекпоинта YandexGPT 5 Pro — это даёт уверенный warm-start. Далее дообучали в несколько этапов: online-RL GRPO (по аналогии с разработками R1 на реворде с однозначными ответами), потом offline-RL-фаза со сравнением и дообучением на лучших генерациях, а затем RLHF.

Трейн датасет включает не только математические задачи, но и бизнес-сценарии: классификацию, извлечение информации из текстов и суммаризацию. Бенчей пока что нет, но это норма для бета тестов — интересно проследить, что будет на релизе.

В настройках Алисы можно выбрать одну из двух моделей: YandexGPT 5 с рассуждениями или опенсорсную DeepSeek-R1, развернутую на инфраструктуре Яндекса. По дефолту система выбирает между ними случайным образом при каждом запросе, но можно и вручную выбрать конкретную. Выбор из двух моделей сделали, чтобы понять поток запросов на рассуждение и собрать датасет для дообучения модели, а также проверить гипотезу полезности такого продукта для пользователя — все-таки на ru рынке это первый эксперимент с ризонингом. Доступность альтернативы — признак уверенности в своей модели яндексоидов, ведь R1 - это крайне сильная модель. Но ждем бенчмарков!

@ai_newz
Microsoft выпустила веса BitNet модели (спустя год)

Я уже писал о BitNet — методе тренировки моделей сразу квантизированными до 1.58 бит, но тогда авторы выложили лишь пару сниппетов кода, без весов. Их новая 2B модель примерно равна Qwen 2.5 1.5B на бенчах, но в два раза быстрее и использует в 12 раз меньше энергии.

Натренировали её всего на 4 триллионах токенов, что хоть и мало для моделей побольше, но нормально в такой весовой категории — ту же Gemma 3 1B натренировали на лишь двух триллионах токенов, а 4B на 4. Но есть здесь и ложка дёгтя — так как модель от Microsoft, то вероятно что модели тренировали на датасетах от Phi моделей, а у них скверная репутация.

Как модель себя ведёт на самом деле — покажет лишь опыт использования. Если хотите попробовать — для инференса рекомендуют использовать майкрософтовский bitnet.cpp, остальной софт для инференса BitNet модели не поддерживает.

Веса

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили бету своего Deep Research

В отличии от конкурентов, он может искать не только по интернету, но и по персональным данным — этому помогают новые интеграции с Google Workspace. Они работают и без Research и уже доступны всем платным юзерам.

А вот Research доступен лишь пользователям в США, Бразилии и Японии на планах Team, Enterprise и Max. Max — это ответ Anthropic на ChatGPT Pro, она даёт увеличенные лимиты использования и стоит либо 100 (за 5x лимиты) либо 200 (за 20x лимиты) долларов. Самое обидное, что за такие деньги не дают даже 500к контекста из энтерпрайз плана 😭.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
💥Итак, эта тёмная лошадка Mogao оказалась новой text2image моделью Seedream 3.0 от ByteDance

На лидерборде она делит первое место с GPT-4o – разрыв в 1 ELO поинт.

Выпустили тех репорт в стиле OpenAI с минимумом подробностей. Мы даже не знаем размер модели, но, я думаю, она > 10B параметров. Известно только, что это архитектура MMDiT (как у Flux), генерит хайрез в 2048x2048 и поддерживает китайский и английский языки.

На последней картинке интересно посмотреть, как сильно увеличивается качество генерации после каждого этапа post-train модели.

Весов ждать не стоит, т.к. ТикТок ранее не был замечен в щедрых релизах своих топовых моделей.

Тех репорт
Демо (на китайском)

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Через o3 минуты стрим у OpenAI

Обещают показать "новые модели" из линейки o, скорее всего речь идёт о полноценной o3 и o4-mini.

https://www.youtube.com/watch?v=sq8GBPUb3rk

@ai_newz
o3 и o4-mini от OpenAI релизятся

Главная фишка — новые модели натренировали использовать тулы прямо во время ризонинга. То есть они могут не только искать в интернете, но и исполнять код и пользоваться другими тулами. Обе модели мультимодальные и могут использовать это во время размышлений.

По бенчам — разнос всего, даже недавно релизнутой Gemini 2.5 Pro Experimental. Но оно и не удивительно — на тренировку o3 ушло более чем в 10x больше компьюта чем у o1.

Модели начинают раскатывать уже в ChatGPT для Pro и Plus планов, остальным через неделю. Лимиты такие же как у прошлых моделей. Для Pro подписчиков обещают и o3-pro, но релизнут её немного позже.

В API релизят тоже сегодня, но пока что без тулюза. Цена за o3 — $10/$40 за миллион токенов, это на треть дешевле чем o1 и в 15 (!) раз дешевле o1-pro. При этом o1 для решения задачи нужно больше токенов чем o3, поэтому o1 собираются полностью заменить на o3. А вот o3-mini стоит столько же сколько o4-mini — $1.1/$4.4 за миллион токенов, но интеллекта на доллар там тоже больше, из-за чего и o3-mini полностью заменят на o4-mini.

@ai_newz
А вот и первые независимые бенчи o4-mini

Artificial Analysis уже протестили o4-mini и прямо сейчас тестят o3. Модель очень хорошо себя показывает на всех бенчах, но есть и отличия — по сравнению с данными OpenAI HLE заметно выше, а GPQA немного ниже. Но это нормально — результаты на бенчмарках всегда немного отличаются между разными прогонами, особенно когда сетап немного отличается.

В целом вышла очень хорошая модель — даже лучше чем o3 на визуальных тасках, судя по заявлениям сотрудников OpenAI. А теперь представьте что сможет полноценная o4.

@ai_newz
2025/06/27 21:57:36
Back to Top
HTML Embed Code: