Нейродайджест за неделю (#68)
С майскими!
LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.
Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.
Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.
> Читать дайджест #67
#дайджест
@ai_newz
С майскими!
LLM
- Баф Gemini 2.5 Pro — быстрее, лучше, сильнее! Топ вебдеф арены.
- Mistral Medium 3 — закрытая моделька, почти Sonnet 3.7, но в 7 раз дешевле.
- Seed-Coder 8B — легонькая моделька от Bytedance, лучшая в своей категории, но чисто для кода. Секрет — "model-centric" пайплайн, который жёстко фильтрует датасет.
Генеративные модели
- Project Odyssey — статы с крупнейшего конкурса AI-фильмов: как сделать лучший фильм и сколько это стоит.
- Лекция: Radiance Fields and the Future of Generative Media от автора NeRF собственной персоной, Джон Баррон, поясняет за последние 5 лет ресерча.
Прочее
- Ценообразование API — о том, сколько на самом деле стоит LLM и почему цена за токен — это ещё не всё.
> Читать дайджест #67
#дайджест
@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT обновили функцию Deep Research – теперь можно скачивать отчеты в формате красивого pdf
Тех-репорт Qwen3
Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.
Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.
Ждем, когда InternVL прикрутит Qwen3 к своим VLM.
Тех-репорт
@ai_newz
Вышел тех-репорт по одной из сильнейших LLM моделей в OpenSource на сегодня - Qwen 3 (про анонс подробнее я писал тут). Большой респект авторам за то, что выкладывают свои модели в открытый доступ.
Подробностей не супер много, но все равно есть интересные моменты, и стоит пробежаться глазами.
Ждем, когда InternVL прикрутит Qwen3 к своим VLM.
Тех-репорт
@ai_newz
Новые версии Claude уже на подходе
По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.
@ai_newz
По инфе The Information, модели могут выйти уже в следующие несколько недель. Речь идёт как о Claude Sonnet, так и о Claude Opus (про Haiku все дружно забыли). Главная фишка новых моделей — то что они могут самостоятельно переключаться между ризонингом и тулюзом. То есть это что-то похожее на o3/o4-mini, где модель может пойти подумать, потом поискать что-то в интернете, дальше выполнить код и ещё подумать. С тем как Anthropic концентрируется на API, у них есть неплохие шансы запуститься перед доступностью такого функционала в API OpenAI.
@ai_newz
GPT 4.1 добавили в ChatGPT
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz
4.1-mini заменит 4o-mini для всех пользователей, а 4.1 уже раскатывают платным подписчикам (но Enterprise и Edu как всегда позже). По сравнению с 4o, модели 4.1 сильно лучше в кодинге и следованию инструкций. Ещё GPT 4.1 поддерживают и контекст до миллиона токенов в API, но похоже на ChatGPT это не распространяется и у Plus пользователей всё те же 32к контекста, а у Pro — 128k.
@ai_newz
Что случилось с Grok?
На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.
Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".
Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".
https://github.com/xai-org/grok-prompts
@ai_newz
На днях бот Grok для реплаев в твиттере (тот самый что "Grok is this true?") слетел с катушек и в чуть ли не каждом твите начал высказывать своё мнение об геноциде белых в Южной Африке. О ситуации успел поиронизировать даже Сэм Альтман, у которого пару недель назад был скандал из-за излишнего лизоблюдства GPT 4o.
Очевидно, что-то тупо подмешали в системный промпт. Судя по официальному заявлению xAI, это произошло вследствие "несанкционированного изменения промпта" в 3:15 ночи по калифорнийскому времени. Такая ситуация уже была пару месяцев назад – тогда в промпте появилось указание "игнорировать источники, которые упоминают о дезинформации со стороны Дональда Трампа и Илона Маска". Тогда всё спихнули на "бывшего сотрудника OpenAI", который "не привык к культуре xAI".
Сейчас xAI приняли меры – пообещали ужесточить процесс ревью изменений промпта и опубликовали все промпты для грока на гитхабе. Если повезёт, эту репу не забросят, как это было с "опенсорсным алгоритмом твиттера".
https://github.com/xai-org/grok-prompts
@ai_newz
Codex — агент для кодинга от OpenAI
Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.
В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.
Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.
А ещё они опубликовали системный промпт
Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)
@ai_newz
Внутри модель codex-1, версия o3 для агентного кодинга. Она генерирует код, близкий к человеческому стилю, точно следует инструкциям и может итеративно запускать тесты до получения положительного результата. codex-1 будет доступна лишь в специальном огороженном энвайрнменте от OpenAI. Но есть и версия поменьше — codex-mini, основанная на o4-mini. Она будет доступна в API по цене $1.5/$6 за миллион токенов.
В Codex CLI, которая работает на вашем компьютере доступна будет лишь codex-mini. Но теперь можно заходить с аккаунтом ChatGPT, а Plus и Pro пользователям ещё и дают бесплатных API кредитов для codex-mini на 30 дней — $5 и $50. Акция, надеюсь, не разовая.
Доступ к полноценному Codex осуществляется через ChatGPT, куда теперь можно подключать свои гитхаб репозитории, в которых Codex будет открывать пулреквесты. Codex даёт подтверждения своих действий (логи, результаты тестов), его работу можно направлять файлами AGENTS.md, а безопасность обеспечивается исполнением кода в изолированном контейнере и отказом от выполнения вредоносных запросов. Доступен будет уже сегодня для Pro, Team и Enterprise пользователей, а Plus и Edu нужно подождать.
А ещё они опубликовали системный промпт
Блогпост
Попробовать (только Pro, Team и Enterprise подпискам)
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Image 2.0: Быстрая генерация изображений
Как известно, генерация изображений работает не быстро, и все хотят ее ускорить, чтобы можно было открывать разные новые продуктовые возможности.
Вот и Hunyuan (Tencent) представили Hunyuan Image 2.0 — real-time генератор, напоминающий Imagine Flash (только мой флеш был быстрее) или Krea Realtime.
Моделька действительно шустра и в сравнении с Krea делает добротные по качеству картинки. Кожа выглядит очень реалистичной, да и в целом видно, что сделан большой упор на фотореализм.
По технологии: это дистилляция большой модели в несколько шагов (моя серия постов про это). Но официальных подробностей нет.
По функционалу: есть такое же, как в Krea окошко, куда можно закидывать картинки, какие-то скетчи, управлять весом картинки и AI-генератора, менять местами и подгружать свои изображения на холсте. Всё это добро в реалтайме.
Ждем техрепорт и возможно код. Ведь Hunyuan любят выкладывать свои модельки (например, вот Hunyuan Image2Video).
Еще они выпустили стрим в стиле OpenAI. Конечно же, ничего не понятно, но внизу есть субтитры на английском, что, в общем-то, не очень помогает. Можно глянуть пару примеров, как это работает.
По бенчмаркам, модель бьёт всех конкурентов. Но если всмотреться в цифры, то DALL-E 3 лучше Flux, и я уже молчу про SD3 Medium, которую Flux.1-dev обходит по качеству очень сильно. Так что бенчмарки их очень сомнительные.
hunyuan.tencent.com
@ai_newz
Как известно, генерация изображений работает не быстро, и все хотят ее ускорить, чтобы можно было открывать разные новые продуктовые возможности.
Вот и Hunyuan (Tencent) представили Hunyuan Image 2.0 — real-time генератор, напоминающий Imagine Flash (только мой флеш был быстрее) или Krea Realtime.
Моделька действительно шустра и в сравнении с Krea делает добротные по качеству картинки. Кожа выглядит очень реалистичной, да и в целом видно, что сделан большой упор на фотореализм.
По технологии: это дистилляция большой модели в несколько шагов (моя серия постов про это). Но официальных подробностей нет.
По функционалу: есть такое же, как в Krea окошко, куда можно закидывать картинки, какие-то скетчи, управлять весом картинки и AI-генератора, менять местами и подгружать свои изображения на холсте. Всё это добро в реалтайме.
Ждем техрепорт и возможно код. Ведь Hunyuan любят выкладывать свои модельки (например, вот Hunyuan Image2Video).
Еще они выпустили стрим в стиле OpenAI. Конечно же, ничего не понятно, но внизу есть субтитры на английском, что, в общем-то, не очень помогает. Можно глянуть пару примеров, как это работает.
По бенчмаркам, модель бьёт всех конкурентов. Но если всмотреться в цифры, то DALL-E 3 лучше Flux, и я уже молчу про SD3 Medium, которую Flux.1-dev обходит по качеству очень сильно. Так что бенчмарки их очень сомнительные.
hunyuan.tencent.com
@ai_newz
TSMC — завод, который печёт будущее ваших моделей
Когда вы стоите в очереди за H100 или мечтаете о Blackwell-кластере, реальное «узкое горлышко» — не NVIDIA. Под капотом каждой AI-платы лежит литография и упаковка от TSMC. Именно тайваньский гигант сегодня производит большую часть 3- и 5-нм кристаллов, а сегмент HPC уже обогнал смартфоны и стал крупнейшим источником выручки компании после взлёта генеративного AI в 2022. В последний раз я писал про TSMC, когда на Тайване было землетрясение, пришло время ещё раз про них поговорить.
Почему вам важно следить за TSMC
Бум CoWoS. Чтобы «пришить» GPU к HBM (это VRAM), нужна технология Chip-on-Wafer-on-Substrate. Из-за бешеного спроса именно упаковка, а не литография, сегодня ограничивает объёмы поставок. TSMC планирует удвоить CoWoS-мощности в 2025-м до ≈ 75 тыс. пластин в месяц, а совокупный рост 2022–2026 гг. оценивается выше 80 % CAGR.
Девять новых площадок за год. В 2025 году компания параллельно строит или расширяет девять фабрик и упаковочных линий — на Тайване, в Аризоне, Кумамото и Дрездене — чтобы догнать спрос на AI-кремний и минимизировать геополитические риски.
Переход на GAA-транзисторы. Первая 2-нм линия N2 выходит в массовое производство в Q4 2025. По сравнению с N3E она даёт до 15 % прироста скорости или 30 % экономии энергии — критично для обучения LLM при фиксированном теплопакете. Про первый 2-нм чип от IBM я писал еще в 2021, но вот как видите, этого до сих пор нет в массовом произвордстве.
Roadmap до 1.4 нм. Свежо анонсированный узел A14 (1.4 нм) запланирован на 2028 год: +15% производительности или -30% энергопотребления относительно N2 и ещё +20% плотности транзисторов.
--------
Что все это значит для нас?
1️⃣ Больше GPU — и раньше. Удвоение CoWoS высвободит сотни тысяч ускорителей в 2025 г., смягчив дефицит и цены на аренду мощностей в облаке.
2️⃣ Новые узлы = больше параметров за тот же ватт. 2-нм GAA-кристаллы позволят разместить ~25 % больше логики в том же тепловом бюджете; при переходе на A14 этот выигрыш вырастет ещё примерно на пятую часть. Больше FLOPS/Вт → дешевле обучение и тонкая настройка.
3️⃣ 3D-стек Stack-SoIC. Параллельно TSMC наращивает собственную монолитную интеграцию чипов (SoIC). Это открывает дорогу компактным модульным ускорителям для edge-inference, где критична скорость и потребление.
4️⃣ Горизонт планирования. Если вы строите инфраструктуру под следующий виток LLM-ок, закладывайте: массовые кластеры N2-GPU появятся к началу 2026 г., первые «1.4 нм» образцы — к 2028-му. Именно на этих узлах появятся архитектуры с HBM4 и шиной >10 ТБ/с.
Для справки - текущие "Blackwell" B100 пострены по 3-нм процессу.
TL;DR: пока мы оптимизируем loss-функции и режем latency инженерными трюками, TSMC втихую расширяет физические пределы кремния. Если вам важна доступность железа и цена обучения, то следить за роудмапами фабрики полезно так же, как за релизами PyTorch.
@ai_newz
Когда вы стоите в очереди за H100 или мечтаете о Blackwell-кластере, реальное «узкое горлышко» — не NVIDIA. Под капотом каждой AI-платы лежит литография и упаковка от TSMC. Именно тайваньский гигант сегодня производит большую часть 3- и 5-нм кристаллов, а сегмент HPC уже обогнал смартфоны и стал крупнейшим источником выручки компании после взлёта генеративного AI в 2022. В последний раз я писал про TSMC, когда на Тайване было землетрясение, пришло время ещё раз про них поговорить.
Почему вам важно следить за TSMC
Бум CoWoS. Чтобы «пришить» GPU к HBM (это VRAM), нужна технология Chip-on-Wafer-on-Substrate. Из-за бешеного спроса именно упаковка, а не литография, сегодня ограничивает объёмы поставок. TSMC планирует удвоить CoWoS-мощности в 2025-м до ≈ 75 тыс. пластин в месяц, а совокупный рост 2022–2026 гг. оценивается выше 80 % CAGR.
Девять новых площадок за год. В 2025 году компания параллельно строит или расширяет девять фабрик и упаковочных линий — на Тайване, в Аризоне, Кумамото и Дрездене — чтобы догнать спрос на AI-кремний и минимизировать геополитические риски.
Переход на GAA-транзисторы. Первая 2-нм линия N2 выходит в массовое производство в Q4 2025. По сравнению с N3E она даёт до 15 % прироста скорости или 30 % экономии энергии — критично для обучения LLM при фиксированном теплопакете. Про первый 2-нм чип от IBM я писал еще в 2021, но вот как видите, этого до сих пор нет в массовом произвордстве.
Roadmap до 1.4 нм. Свежо анонсированный узел A14 (1.4 нм) запланирован на 2028 год: +15% производительности или -30% энергопотребления относительно N2 и ещё +20% плотности транзисторов.
--------
Что все это значит для нас?
Для справки - текущие "Blackwell" B100 пострены по 3-нм процессу.
TL;DR: пока мы оптимизируем loss-функции и режем latency инженерными трюками, TSMC втихую расширяет физические пределы кремния. Если вам важна доступность железа и цена обучения, то следить за роудмапами фабрики полезно так же, как за релизами PyTorch.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
эйай ньюз
Землетрясение в 7.4 балла на Тайване
Кроме человеческих жертв (что несомненно ужасно), почему это важно в контексте AI?
На Тайване производят от 80% до 90% всех high-end чипов в мире (в основном это компания TSMC). И Тайваню пока в этом замены нет. Землетрясение…
Кроме человеческих жертв (что несомненно ужасно), почему это важно в контексте AI?
На Тайване производят от 80% до 90% всех high-end чипов в мире (в основном это компания TSMC). И Тайваню пока в этом замены нет. Землетрясение…
Нейродайджест за неделю (#69)
(nice)
LLM
- Codex от OpenAI — кодинг-агент на тюне o3. Чётко слушает инструкции, следует человеческому стилю, можно подключить свой GitHub и идти пить чай, пока модель работает.
- GPT-4.1 в ChatGPT — модель добавили в веб-интерфейс (ранее только API). Контекст 1М не завезли, но обещают значительное улучшение в коде по сравнению с 4o.
- Новые Claude на подходе? — слив от The Information: модели стоит ждать в ближайшие пару недель.
- Техрепорт Qwen3 — есть что почитать.
- Deep Research в PDF— приятное quality-of-life обновление.
Генеративные модели
- Hunyuan Image 2.0 — риалтайм text2img моделька (как Imagine Flash) с хорошей кожей и UI интерфейсом, но на китайском.
Прочее
- Grok опять шалит? — официальный аккаунт Grok для реплаев в Твиттере каждый заданный вопрос уводил в тему геноцида белых в Южной Африке. Что?
- Update по TSMC — новые фабрики, 2-нм GAA-транзисторы, наращивание CoWoS мощностей -> больше, мощнее, быстрее.
> Читать дайджест #68
#дайджест
@ai_newz
(nice)
LLM
- Codex от OpenAI — кодинг-агент на тюне o3. Чётко слушает инструкции, следует человеческому стилю, можно подключить свой GitHub и идти пить чай, пока модель работает.
- GPT-4.1 в ChatGPT — модель добавили в веб-интерфейс (ранее только API). Контекст 1М не завезли, но обещают значительное улучшение в коде по сравнению с 4o.
- Новые Claude на подходе? — слив от The Information: модели стоит ждать в ближайшие пару недель.
- Техрепорт Qwen3 — есть что почитать.
- Deep Research в PDF— приятное quality-of-life обновление.
Генеративные модели
- Hunyuan Image 2.0 — риалтайм text2img моделька (как Imagine Flash) с хорошей кожей и UI интерфейсом, но на китайском.
Прочее
- Grok опять шалит? — официальный аккаунт Grok для реплаев в Твиттере каждый заданный вопрос уводил в тему геноцида белых в Южной Африке. Что?
- Update по TSMC — новые фабрики, 2-нм GAA-транзисторы, наращивание CoWoS мощностей -> больше, мощнее, быстрее.
> Читать дайджест #68
#дайджест
@ai_newz
На Google I/O показали Diffusion версию Gemini. Она, при таком же уровне интеллекта, в пять раз быстрее Gemini 2.0 Flash Lite, самой быстрой модели гугла и выдаёт 1479 токенов в секунду! Пока доступно только ограниченное превью для избранных, которым обещают докинуть более умную модель чуть позже.
Очень интересно наблюдать как авторегрессию юзают в генерации изображений и видео, а дифузию в генерации текста. Архитектуры становятся всё ближе и ближе к друг другу.
https://deepmind.google/models/gemini-diffusion/
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Veo 3 — новая лучша модель для генерации видео
Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.
@ai_newz
Похоже, новая SOTA для видео. Кроме видео может генерить ещё и звуки, в том числе и диалоги! Все видосы в посте были сгенерены чисто через Veo 3. Будет доступна уже сегодня.
@ai_newz
Google AI Ultra
Ну что, у гугла, следом за OpenAI и Anthropic, теперь есть своя дорогущая ИИ подписка. За $250 в месяц💳 дают гигантские рейт лимиты для Gemini и других сервисов, доступ к Veo 3 через Flow (ИИ редактор видео от гугла) и Project Mariner (computer use агент от гугла). Докидывают 30 терабайт хранилища и ютуб премиум.
@ai_newz
Ну что, у гугла, следом за OpenAI и Anthropic, теперь есть своя дорогущая ИИ подписка. За $250 в месяц
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Что показали на Google I/O?
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...🎤
@ai_newz
Только что завершилась презентация Google, и это, похоже, крупнейшая презентация 2025-го по количеству и качеству новых фишек и инструментов – Google явно учится на прошлогоднем опыте.
Сначала самое жаркое:
- Veo 3 — Veo 2 ещё не успели сместить с пьедестала, а Google уже дропнули 3-ю версию SOTA видеогенератора. Лучше во всём, и теперь с нативной генерацией аудио, включая диалоги с липсинком! Доступна уже сегодня.
- Imagen 4 — опять же, лучше во всём своего предшественника. Остаётся проверить, вдруг это новая SOTA? Уже в проде.
- Agent mode в Gemini — сможет искать квартиру по заданным критериям, используя MCP для доступа к листингам и даже назначать встречи. "скоро"
- AI Mode в Google Поиск — В AI Mode интегрируются агентские возможности Project Mariner: поиск сможет выполнять задачи от имени пользователя (находить билеты, бронировать столики, записываться на услуги). Более того, агент сможет отслеживать цены на товары, уведомлять о снижении и, с разрешения пользователя, совершать покупку через Google Pay. Сам AI мод уже должен быть доступен, но не весь его функционал. Летом обещают завезти туда и Deep Search.
- Примерка в Поиске — теперь можно виртуально примерять одежду на себе с помощью специально обученного ИИ-генератора изображений (на базе Imagen). Доступно в Labs с сегодняшнего дня.
- Риалтайм перевод в Google Meet — сохраняет тон, темп и даже интонацию говорящего. Доступен для подписчиков на английском и испанском, больше языков — "in the next few weeks".
- Обновлённый Gemini Live — теперь включает возможности Project Astra (камера и демонстрация экрана). Скоро сможет подключаться к приложениям Calendar, Maps, Keep и Tasks. Юзкейсов со стримингом с камеры и экрана масса. Доступен в Gemini App.
- Personal Context в Gemini — теперь можно дать разрешение на использование данных из вашего аккаунта Google (например, Gmail, Drive, Docs, Search) для персонализации, хотя пока что готов только доступ к истории поиска. В целом, нейронке теперь будет известно о вас всё. Как-то крипово даже. Обещают "скоро".
Для технарей:
- Jules — агент для кода от Google, прямая ответка на релиз Codex от OpenAI. В раннем доступе гоняли с декабря, а теперь доступен всем на jules.google.
- Gemini Diffusion — экспериментальная диффузионная модель для текста, в 5 раз быстрее Gemini 2.0 Flash Lite (самой быстрой модели Google), при сохранении качества, особенно в коде и математике. 1479 токенов в секунду это не шутка.
- Поддержка MCP в Gemini SDK — Gemini SDK теперь совместим с инструментами Model Context Protocol (MCP от Anthropic), что позволяет агентам получать доступ к другим сервисам. (Видимо, побочный эффект Agent mode).
- Обновлённый Gemini 2.5 Flash — Улучшен по ключевым бенчмаркам (рассуждения, код, длинный контекст) и на 22% эффективнее по использованию токенов, что особенно актуально учитывая разговорчивость 2.5 Flash. Можно заценить в ai.studio и пр.
- API с нативной поддержкой звука — превью text-to-speech в Gemini API поддерживает 2 голоса, более 24 языков, может шептать. + Live API также получит превью 2.5 Flash с нативным аудиодиалогом. Уже доступно.
- Бюджеты на размышления (Thinking Budgets) в Gemini 2.5 Pro — функция для контроля соотношения затрат/задержки и качества ответа появится в 2.5 Pro в ближайшие недели, а в 2.5 Flash она уже месяц.
Mic drop...
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM