ai_newz Telegram Group

эйай ньюз

Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?

После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Но это не замечали, потому что лишь Anthropic решили протестировать модель на такое.

Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит (якобы) серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.

Бенч

@ai_newz

39.9K viewsedited 19:07

эйай ньюз

Нейродайджест за неделю (#71)

LLM
- DeepSeek R1 обновили — теперь обходит Qwen 3 235B, но всё ещё за Gemini 2.5 Pro и o3. Больше размышляет и меньше галлюцинирует. Есть дистиллированная 8B версия.
- Grok интегрируют в Telegram — по заявлению Павла Дурова, летом появится глубокая интеграция Telegram получит $300m и долю в xAI. Сделка ещё не подписана, но вроде её собираются скоро подписать.
- GPT-3 стукнуло 5 лет — большой разбор того, как далеко шагнули LLM за эти годы: от 175B параметров и 2k контекста до мультимодальности, агентов, RLHF, и опенсорса, доступного каждому.

Железо
- NVIDIA готовит китайские GPU — B40/6000D на Blackwell, но с порезанными спеками, чтобы обойти санкции США.

Ликбез
- Стэнфордский курс по LLM — CS336 "Language Modeling from Scratch": от сбора данных до развертывания. Все материалы, код и лекции в открытом доступе. Практика с Transformer, FlashAttention 2 и RL.

Интересное
- Snitch Bench: кто из LLM стучит чаще? — после истории с Claude 4, который уведомлял власти, создали шуточный бенчмарк. Проверяет, как часто модели сообщают о (мнимых) правонарушениях. o4-mini самый лояльный, а последние Claude и Gemini 2.0 Flash — самые бдительные.

> Читать дайджест #70

#дайджест
@ai_newz

37.0K viewsedited 21:22

эйай ньюз

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI дают доступ к Codex подписчикам Plus

Доступ уже раскатывают, лимиты "щедрые", но во время высокой нагрузки их будут резать для Plus юзеров. Ещё докинули кучу quality of life фич — агенту теперь можно давать указания голосом и включить доступ к интернету. Плюс Codex теперь не будет спамить пулреквестами, а сможет обновлять существующие.

chatgpt.com/codex

@ai_newz

32.3K viewsedited 18:24

эйай ньюз

Claude Code теперь доступен подписчикам Pro (план за $20)

Лимиты должны позволить Claude 4 Sonnet работать в небольших кодбазах час-два, лимиты сбрасываются каждые 5 часов. Opus остаётся прерогативой Max плана ($100/$200), как и повышенные рейтлимиты. Конкуренция работает — вчера OpenAI дали доступ к Codex для Plus подписчиков, а сегодня Anthropic отвечает.

Для того чтобы начать использовать нужно установить CLI тулу и залогиниться туда со своим аккаунтом Anthropic. А результаты своего вайбкодинга с Claude Code можете скидывать в комменты.

npm install -g @anthropic-ai/claude-code

@ai_newz

35.5K viewsedited 17:26

эйай ньюз

Gemini 2.5 Pro обновили

Сильный прирост по бенчам, Gemini 2.5 Pro теперь обходит текущую версию o3. Модель уже доступна в ai.studio, по первым ощущениям мне она нравится больше чем более ранние версии — по крайней мере она слушается когда просишь её не спамить код комментами. А ещё, как и 2.5 Flash, это гибридная модель, у которой можно устанавливать бюджет на ризонинг. Генерацию изображений для Gemini Pro так и не завезли.

@ai_newz

42.4K viewsedited 16:21

эйай ньюз

Создатели Cursor привлекли $900m по оценке в $9.9B

У них всё хорошо — вчера вышла версия 1.0 редактора, куда добавили память и возможность агенту пользоваться Jupyter Notebooks. Компания довольно агрессивно хантит, утащили даже лида разработки моделей из Midjourney. Но они могут себе это позволить — проецируемая выручка превысила $500m в год, правда непонятно сколько из этих денег идёт в карман провайдеров моделей.

А тем временем у главного конкурента Cursor, Windsurf, проблемы — Anthropic забирают доступ к своему API. Дело в поглощении Windsurf OpenAI — слухи о сделке ходят уже больше месяца, хоть и никакого подтверждения закрытия сделки не было. Видимо Anthropic уверенны что сделка состоится — "Было бы странно если бы мы продавали OpenAI доступ к Claude", прокомментировал Джаред Каплан, Chief Science Officer в Anthropic.

@ai_newz

31.8K viewsedited 19:33

эйай ньюз

Нейродайджест за неделю (#72)

Инструменты для (вайб)кодинга
- OpenAI открыли Codex для Plus подписчиков — "щедрые" лимиты с урезанием при высокой нагрузке. Добавили голосовые команды, доступ к интернету и возможность обновлять существующие PR вместо спама новыми.
- Claude Code для Pro подписчиков — ответ Anthropic на ход OpenAI. План за $20 даёт доступ к Claude 4 Sonnet для работы в небольших кодбазах 1-2 часа, лимиты сбрасываются каждые 5 часов. Opus остаётся только для Max плана ($100/$200).
- Создатели Cursor закрыли ещё раунд — вышла версия 1.0 с памятью и поддержкой Jupyter. Выручка превысила $500m/год. У конкурента Windsurf проблемы: Anthropic забирают API из-за возможного поглощения OpenAI.

LLM
- Gemini 2.5 Pro обновили — сильный прирост по бенчам, теперь обходит текущую версию o3. Гибридная модель с настраиваемым бюджетом на reasoning. Доступна в AI Studio.

Читать дайджест #71

#дайджест
@ai_newz

28.7K viewsedited 20:33

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

0:40

24.3K views06:54

эйай ньюз

Камбэк Рокета

Банк закрылся ещё в 21 году, но теперь с двух ног готов вернуться в игру. На своем лендинге они оставили заметки разработчиков, в которых размышляют об умной аналитике финансов, кастомизируемом интерфейсе.

Аналитика финансов звучит интересно — excel уже как-то поднадоел, плюс вручную все вбивать. В других банках вроде бы есть что-то похожее, но данные отображаются криво, и сложно оценить реальные траты. В общем, нормальных решений пока не нашлось (есть, конечно всякие приложеньки, но это все не то...).

Ну а полная кастомизация звучит как дикая песочница. Вот бы был свой Linux среди банков.

И вишенка на торте — это рекомендации. Куда же без них, но концепт интересный с точки зрения того, что только у банка есть инфа о том, на что вы реально тратите деньги. Так что в теории эти рекомендации должны быть полезными (во всяком случае, точно полезнее ленты в Тиктоке).

Все это пока лишь размышления Рокета, но вектор мысли интересный. Посмотрим, что будет дальше.

@ai_newz

22.9K views12:45

эйай ньюз

Video message

CVPR 2025

Коротко, что это за конференция: CVPR — самая крупная и самая престижная конференция по компьютерному зрению и AI. У нее самый высокий импакт-фактор среди всех конференций и журналов (вообще), выше нее только публикация в журнале Nature.

2-3 публикации на CVPR обычно гарантируют автору защиту PhD диссертации.

На нее съезжаются учёные и инженеры со всего мира, чтобы показать новые идеи и модели. Часто там появляются технологии, которые потом становятся важными для всей индустрии. Спонсируется все это дело Биг-Техом и стартапами поменьше. На воркошопах и туториалах выступают топовые ученые, там можно встретить и Яна ЛеКуна, и Шмидхубера, и других.

[Серия постов про мою поездку на CVPR 2023]

--

Кроме докладов и постеров, самая интересная часть любой конференции – это конечно же нетворкинг.
[Пост про то как нетворкать на конференциях]

⭐️Я уже в пути, на конфе буду презентовать 2 статьи. Поэтому, если вы тоже будете в Нэшвилле на этой неделе, то залетайте в чатик, будем знакомиться. Я как всегда буду организовывать CVPR эйай-ньюз тусу: ссылка на чат.

#конфа
@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

0:20

эйай ньюз

CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion…

22.0K viewsedited 14:46

эйай ньюз

Тем временем прошла WWDC от Apple

Самая интересная ИИ фича с WWDC — Foundation Models Framework

Apple теперь дают доступ к LLM в Apple Intelligence сторонним разработчикам. Хоть и LLM у эппла не лучшие, но они доступны оффлайн, на куче устройств и абсолютно бесплатно. Из фич в фреймворке доступен как минимум тулюз и guided generation, подробности расскажут чуть позже.

Бета доступна разработчикам уже сегодня. Хороший такой способ неплохо сэкономить на API костах и проще интегрировать LLM в приложения (чтобы начать использовать фреймворк нужно всего лишь три строчки кода на Swift).

Блогпост

@ai_newz

23.7K viewsedited 19:34

эйай ньюз

Magistral — Mistral наконец-то сделали ризонера

И сразу же стало понятно почему они так медлили — это катастрофа. Magistral Medium не может обогнать даже январскую DeepSeek R1 в одинаковых условиях, что уже говорить про R1-0528, которую они не могут догнать даже с maj@64. Доступна модель лишь в API, при цене в $2/$5 за миллион токенов, то есть она дороже o4-mini ($1.1/$4.4) и почти на уровне новых цен на o3 ($2/$8), а это всё модели на голову или две лучше.

Выпустили они и открытую модель — Magistral Small, 24B модель, которая отстаёт на большинстве бенчей даже от Qwen 3 8B (8B просто не замеряли на Aider, так что обогняет ли она Magistral и там непонятно). А ведь существуют и Qwen 3 побольше.

Из хорошего — они опубликовали пейпер о тренировке модели, где довольно детально описали процесс тренировки. А благодаря партнёрству с Cerebras, в LeChat Magistral работает крайне быстро — больше 1000 токенов в секунду (правда бесплатным юзерам дают лишь 3 таких запроса в день).

UPD: Magistral Medium тренировали исключительно при помощи RL, без SFT, так что сравнивать её стоит скорее с R1-Zero. Может когда-то они докинут SFT и модель станет более адекватно работать.

Пейпер
Блогпост
Веса Magistral Small
Веса Qwen 3 8B

@ai_newz

22.0K viewsedited 15:45

эйай ньюз

OpenAI релизнули o3 pro

Доступ к модели уже дают Pro подписчикам и в API. Модель заметно дешевле o1 pro — $20/$80 за миллион токенов, по сравнению с $150/$600 у o1 pro.

Одновременно с этим в 5 раз снизили цену на обычную o3 — теперь она стоит $2/$8 за миллион токенов. То есть o3 pro ровно в 10 раз дороже.

@ai_newz

24.6K views20:27

эйай ньюз

Авито показали технологическую внутрянку компании

На фестивале Data Fest Авито показали, как работают языковые и визуальные модели, обучаются агенты поддержки, функционируют бизнес-метрики внедрения. А еще — чем занимаются стажеры в компании.

Выяснилось, что собственный токенизатор модели требует на русском языке в среднем на 29% меньше токенов. Это делает модель до двух раз быстрее чем Qwen такого же размера. В итоге на фесте A-Vibe заняла первое место среди небольших моделей в бенчмарке MERA. Кстати, стажеры в компании тоже занимаются обучением A-Vibe. Для них нет тестовых проектов — ребята сразу попадают в гущу событий.

Визуальная модель не отстает от языковой: она умеет делать описание изображения, распознавать текст, считать объекты на фото и даже определять названия брендов. Быстрый токенизатор опять же помогает выполнять все эти задачи в ускоренном режиме.

А для автоматизации 80-95% рутинных задач Авито создал ML-платформу. Платформа объединяет хранилище готовых признаков, систему разметки с взаимным контролем качества между людьми и ИИ, а также open-source решение Aqueduct для оптимизации инференса, экономящее до 30% ресурсов. Конечная цель ー no-code интерфейс, позволяющий любому сотруднику запускать модели без написания кода.

@ai_newz

20.7K views17:07

эйай ньюз

OpenAI ещё раз удвоили лимиты на o3 для Plus подписчиков

Как оказалось обычным подписчикам вчера тоже завезли подарочек — теперь в неделю дают 200 сообщений, вместо 100 (изначально вообще было 50). А как часто вы утыкались в лимиты?

@ai_newz

20.0K views19:09

эйай ньюз

Прямо сейчас на CVPR слушаю доклад от легендарного Tri Dao – автора Flash Attention (штука которая принесла значительные ускорения в трансформеры).

#конфа
@ai_newz

эйай ньюз

ThunderKittens - GPUs Go Brrr

Ребята из Стенфорда сделали фреймворк, упрощающий взаимодействие с тензорными ядрами. И показали его мощь на FlashAttention в сотне строк, который работает быстрее оригинального FlashAttention 2!

Почему так быстро?🥵

➖ Для…

16.0K viewsedited 15:51

эйай ньюз

This media is not supported in your browser

VIEW IN TELEGRAM

0:43

15.9K views15:51

эйай ньюз

Advancing AI 2025 — выжимка из презентации AMD

Хоть Nvidia и лидер на рынке GPU, но они там не одни. Выбрал для вас самое сочное:

➖ MI350x и MI355x (тот же кристалл, выше TDP) будут доступны в третьем квартале — 288 ГБ HBM3e, поддержка FP4/FP6, 8TB/s пропускной способности, до 20 петафлопс в FP4, держат больше полутриллиона параметров на одной карте.

➖ Такие характеристики позволяют нехило сэкономить — AMD обещают прирост в токенах в секунду до 40% за те же деньги, по сравнению с Nvidia Blackwell.

➖ MI400x — 40 петафлопс в fp4, 432 гигабайта HBM4 на скорости 19.6TB/s, релиз в 2026. MI450 уже проектируют вместе с OpenAI — об этом лично сказал Сэм Альтман на сцене.

➖ Helios AI-Rack — прямой конкурент NVL144 Vera Rubin от Nvidia. 72 MI400x дают 2.9 экзафлопса в FP4, 1.4PB/s пропускной способности и 31TB VRAM, при этом давая такой же уровень интерконнекта внутри. Выйдет тоже в 2026.

➖ Helios и вся линейка строятся на открытом интерконнекте, вместо проприетарного NVLink.

➖ AMD Developer Cloud — официальное облако от AMD, специально для разработчиков, для регистрации нужен всего лишь GitHub аккаунт. Предлагают MI300x за $2 в час, что заметно дешевле других провайдеров.

Видюхи AMD выглядят очень вкусно для инференса — при схожей производительности по компьюту, они дают больше VRAM и пропускной способности, что означает заметно больший батчсайз и более дешёвые токены. А за последний год уровень поддержки видюх AMD стандартным софтом для инференса, вроде SGLang, вырос на голову. Но тренировать на них пока что всё ещё рано — всё ещё слишком нестабильно. Хотя прогресс за последнее время всё равно впечатляет.

Полная презентация

@ai_newz

7.3K viewsedited 20:16

2025/06/13 22:04:52
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>