Telegram Group Search
OpenAI запустили API для генерации картинок через GPT

Модель обозвали GPT-Image-1. Кроме резолюшена позволяют выбрать и качество — от low до high. Крайне вероятно что это как-то обозначает именно количество ризонинга, но мы очень мало чего знаем о внутреннем устройстве GPT чтобы судить об архитектуре.

Прайсинг может кусаться — цена на high quality может доходить до 25 центов за картинку. Для сравнения: за картинку из Imagen 3 или HiDream-I1-Dev просят 3 цента, за Recraft V3 — 4 цента. Но это не значит, что GPT не может конкурировать по цене — low режим стоит всего 1-2 цента за картинку, а medium в районе 7.

Как сильно отличаются картинки на разных уровнях качества — пока непонятно. В любом случае, GPT-Image-1 куда гибче конкурентов из-за своей архитектуры, то есть даже low качество может быть очень полезным. А за high качество, в отсутствии конкуренции, заламывать можно очень высокие цены. Появится конкуренция — цены заметно скинут, маржа у OpenAI такое позволяет, ждём Gemini 2.5 Pro Image Generation.

@ai_newz
OpenAI удвоили лимиты на o3 и o4-mini для Plus подписчик

Теперь у подписчиков есть 100 запросов к o3 к неделю, 100 запросов к o4-mini-high в день и целых 300 запросов в день к обычной o4-mini. В основном рад за лимиты o3, остальных моделей в принципе хватало.

А насколько вы чувствуете эти лимиты?

@ai_newz
Learn your reference model for real good alignment

Ресерчеры из T-Bank AI Research представили новый метод дообучения языковых моделей. Они адаптировали Trust Region (TR) к задаче алайнмента LLM. Ключевая идея — обновление референсной policy в процессе обучения вместо её фиксации.

Метод реализуется двумя способами. Мягкое обновление смешивает параметры текущей модели с референсной через коэффициент α. Жёсткое обновление заменяет референсную policy текущей через τ шагов. Оптимальные параметры: α ≈ 0,6, τ ≈ 512.

Тесты на Llama-3 показали превосходство TR-DPO, TR-IPO и TR-KTO над базовыми версиями. Прирост на бенчмарках AlpacaEval 2 и Arena-Hard достиг 10,8%. При равном отклонении от исходной политики TR-модели демонстрируют лучшие человеческие метрики.

Пейпер изменил устоявшийся взгляд на отклонение от изначальной политики. Проблема овероптимизации связана со смещением вероятностной массы к OOD-примерам. TR-метод противостоит этому явлению, требуя лишь настройки α и τ.

Подход улучшил показатели на 8-15% при суммаризации Reddit TL;DR с Pythia 6.9B. У метода есть и ограничения: большие τ неэффективны на малых датасетах, а тестирование через GPT-4 вызывает вопросы. Статью вчера представили на ICLR, куда поехала и одна из моих статей.

Пейпер

@ai_newz
OpenAI дали бесплатный доступ к облегчённому Deep Research

Новая lightweight модель, основанная на o4-mini, позволила дать доступ всем пользователям, даже бесплатным. Бенчмарк дали ровно один — по нему новая модель чуть хуже по качеству чем обычный Deep Research, но даёт заметное улучшение по сравнению с o4-mini, при этом отставая от o3. Но, в отличие от o3, lightweight модель даёт формат deep research, который местами очень нужен.

Доступ уже раскатывают, но доступно всё ещё не всем, дают пять запросов в месяц (до апдейта Plus подписчикам давали 10). Платных пользователей тоже не оставили в обиде — после того как истекают запросы к большому Deep Research, пользователей переключают на облегчённую версию. Это позволило увеличить лимиты с 10 до 25 на Plus и Team подписке и с 100 до 250 на Pro подписке, правда лимит теперь для обеих моделей.

Что-то много у них релизов на этой неделе, похоже OpenAI получили гигантскую поставку GPU

@ai_newz
Media is too big
VIEW IN TELEGRAM
Runway GEN-4 References🔥🔥🔥

К конкурсу видео фильмов GEN-48 Runway раскатили новую старую фичу references, которую презентовали на релизе. Но она сделана для генерации картинок, а не сразу в видео, как это у Kling, там я уже писал почему это не удобно. По принципу работы очень похоже на IP-Adapter, но продвинутый. Принимает на вход до трех изображаний причем сохраняет все мельчайшие детали лица, не крутит их как 4o или Midjourney (последние обещают выпустить что-то похожее), но главная фишка в том что эта штука может и отходить от референса и генерить например фон или areal view бэкграунда (см видос). Штука очень полезная как для продуктовой съемки так и для фильмов.

Ну и на десерт, сейчас всем учасникам GEN-48 дают 300 ТЫСЯЧ кредитов, чтобы вы понимали тир unlimited дает чуть больше 2000 и режим медлинной очереди. Но эти кредиты доступны только следующие 48 часов.
UPD: Поезд ушёл(


Конечно всё нужно тестить, так что жду ваши примеры в комментариях.

Регистрация

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#66)

OpenAI
- API для Image Generation через GPT — на высоких настройках качества очень дорого, но конкурентов по функционалу нет.
- Удвоили лимиты для o3 и o4-mini — теперь можно почти не переходить на более слабые модели.
- Облегчённый Deep Research — доступен даже бесплатным пользователям, а платные получили расширенные лимиты.

Видео
- Референсы для Runway — увы, фича работает на генерации картинок, что даёт не очень хорошие результаты. Но лучше, чем ничего.

Статьи
- Мини-отчёт по моим статьям — три моих статьи приняли на топовые конфы: ICLR и CVPR.
- Learn your reference model for real good alignment — новый метод файнтюна, основанный на Trust Region.

> Читать дайджест #65

#дайджест
@ai_newz
Видео дайджест

Я не знаю, какая муха укусила китайцев, но те всей толпой опять поражают количеством новых моделек. Я даже решил подождать, может ещё чё выйдет (так и вышло!)

Так что немного с опозданием, но вот небольшой обзор всех новых опенсорсных моделек и других плюшек.


SkyReels-V2
Новая (возможно SOTA) опен-сорс видео-модель с LLM и MoE под капотом. Две версии на 1.3B и 14B параметров (влезают в 15 и 52 ГБ VRAM). Разрешение до 720p. Из фишек — может генерить бесконечные фильмы при помощи Diffusion Forcing. Ещё есть SkyCaptioner-V1 для разметки видосов.
SkyReelsSkyCaptioner-V1


FramePack
Ещё одна SOTA (ну скажем для слабого железа) в видео-генерации. От разработчика ControlNet Forge и IC Light. Тоже генерит бесконечные видосы. Очень шустрая: 13B влезают в 6 ГБ VRAM. Тюнится батчами по 64 штуки на 8×A100/H100; на RTX 4090 генерит со скоростью ~2.5 сек/кадр. Из фишек: next-frame prediction с динамической степенью детализации, в зависимости от важности кадра для предсказания следующего. Anti-drifting sampling — двусторонняя выборка, которая как раз и позволяет генерить бесконечные видосы, избегая накопления ошибок.
FramePack


MAGI-1
Новая (возможно SOTA) в видео-генерации. Смотрится неплохо, из всех трёх, наверное, самый интересный (что там относительно Wan — не понятно). Выходит в двух версиях — 1.5B и 24B; для последнего вам потребуется 8×H100 (сравните с предыдущим). Тоже может в бесконечную генерацию. Кстати, генерит аж в 2560 × 1440, и самое интересное — это АВТОРЕГРЕССИОННАЯ модель. Есть подробнейший тех-репорт на 60 страниц.
Демо на Magi.sand.aiGitHub — Magi-1


Все три модели вышли одновременно с громким заявлением, что они теперь SOTA в open-source видео-генерации. Ну что ж, будем смотреть, но здесь важно опираться не только на сырые генерации, но и понимание промпта, с чем у видеомоделек проблемы. Кстати, пока в этом лучший Kling — по крайней мере так кажется: он чуть ли не по таймкодам справляется.


Другие плюшки:

- Wan FLF 2.1 14B 720P — выкатили в опенсорс start+end frame.
GitHubComfyUI workflow

- Avatar FX — Hedra здорового человека фаната Character AI: теперь со своей виртуальной вайфу можно обмениваться кружочками почти как в телеграмм. Скоро и до видео-звонков дойдём. Больше никаких подробностей (опенсорса тоже) — не могу выбросить из головы мысли о «Бегущем по лезвию».
Character.ai

- Runway GEN-4 References — Это геймчейнджер (про него отдельный пост). К конкурсу GEN-48 Runway выкатил свою главную фичу — References︎, продвинутый и гибкий аналог IP-Adapter, который показывали на релизе.


На этом откланяюсь. В посте по одному видео от каждого генератора по очереди, а свои тесты закидывайте в комменты.

@ai_newz
Qwen 3 — открытые гибридные ризонеры

Идёт в размерах на все случаи жизни — от миниатюрной 0.6B, до огромного 235B-A22B MoE, которая обгоняет o3-mini и очень хорошо себя показывает против Gemini 2.5 Pro. Все модели — SOTA в своих весовых категориях. Особенно хочу отметить 30B-3A MoE модель — она бьёт вышедшую полтора месяца назад QwQ 32B, при в 10 раз меньшем количестве активных параметров. Она всё ещё слегка отстаёт от Qwen 3 32B, но в разы быстрее.

Все эти модели — гибридные, то есть они могут вести себя и как обычная модель и как ризонер, что сильно увеличивает гибкость использования - нужно только вставить тег /no_think. Такой фичей могут похвастаться ещё только Claude 3.7 и Gemini 2.5 Flash. А ещё разработчики заявляют, что у Qwen 3 сильно улучшили тул-юз, хотя данных бенчей особо не приводят, в любом случае мы всё и так узнаем через пару дней. Но есть и ложка дёгтя — модели не мультимодальные, а мультимодальные квены обычно релизятся через 3-4 месяца 😢.

Модели тренировали на 36 триллионах токенов из 119 языков, том числе беларуского, русского и украинского. Если датасет для всех моделей одинаковый, то 0,6B тренировали на 60 тысяч токенов на один параметр (привет Шиншилле). Интересно как она себя будет вести при такой плотности. Веса выложили под Apache 2.0 — то есть делать с ними можно всё что угодно. Попробовать модели можно на qwen.ai.

Веса
Блогпост

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Denis Sexy IT 🤖
Есть такой подреддит r/ChangeMyView: его правило простое - автор делится твёрдым убеждением, а комментаторы стараются аргументированно изменить его точку зрения; если у них выходит, автор награждает их ачивкой – «дельтой» (∆), что на сабе считается символом убедительности и интеллектуальной добросовестности

Благодаря жёсткой модерации и культуре вежливой полемики сабреддит давно служит «полигоном» для тренировки аргументации

Учёные провели секретный эксперимент на Reddit: они создали тринадцать аккаунтов-фейков с двумя координирующимися языковыми моделями на каждый аккаунт:

– Первая сканировала историю постов каждого оппонента, вычленяя вероятный возраст, пол, мировоззрение и эмоциональные триггеры

– Вторая, исходя из этого профиля, генерировала ответ, рассчитанный на максимальное изменение мнения

С ноября 2024 года боты оставили около полутора тысяч комментариев и получили более сотни «дельт» - свидетельств того, что авторы исходных постов действительно поменяли позицию. Для сравнения: среднестатистическому участнику сабреддита нужно в шесть раз больше попыток, чтобы добиться таких результатов

Эффективность объяснялась не только персонализацией - LLM «подстраивались» под стилистику Reddit, включая сленг («TL;DR» в начале, саркастические сноски в конце). При этом боты часто изобретали биографии: один позиционировал себя как «жертва изнасилования», другой - как «белая женщина в почти полностью чёрном коллективе», третий - как рядовой муниципальный служащий и тп – такие «галлюцинации» повышали эмоциональную убедительность

25 апреля 2025 года модераторы r/ChangeMyView обнародовали список подозрительных аккаунтов и черновик статьи «Can AI Change Your View?». Началась бурная дискуссия о границах этики: пользователи сочли эксперимент манипуляцией, университетская комиссия вынесла исследователям предупреждение, и теперь люди требуют изъять работу из публикационного процесса

В интернете будущего, нейронки будут спорить с нейронками, получается так
На Llama Con показали официальное API Llama

Сразу на запуске будет доступен неплохой базовый набор фич — мультимодальные API, tool calling, structured outputs. Всё совместимо с API OpenAI, но при желании можно использовать и специальные SDK, доступные для Python и TypeScript. В придачу к этому обещают скоро запустить инференс на железе от Cerebras и Groq.

Есть и полноценные тулы для файнтюна моделей, причём не только тулзы для тюна, но и для оценки моделей. Но главная фишка — возможность скачивать свои затюненные модели, что убирает вендорлок и позволяет легко мигрировать между провайдерами.

API будет доступно в превью уже сегодня. На старте будет четыре модели — Llama 4 Scout и Maverick и Llama 3.3 8B и 70B.

@ai_newz
Ну что, готовы к новому релизу от DeepSeek?

На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.

Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.

Веса

@ai_newz
Сбер представил первую на русском языке модель с нативным восприятием аудио

Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.

Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.

Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.

Пост на хабре
Гигачат

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от рекламы, на которой и держится бизнес модель поиск гугла. Но вот, видимо, дозрели.

Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"

Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат 😅).

https://x.com/OpenAI/status/1916947243044856255

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
В Yandex Cloud стали доступны VLM-модели через API

Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.

Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.

На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.

@ai_newz
2025/06/27 19:41:16
Back to Top
HTML Embed Code: