F Lite — 10B t2i на лицензированных данных
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
Сегодня день трудящихся, поэтому принес вам пример отличной карьеры трудяги.
Чел вырос с mid-level Research Scientist до Директора за 3.5 года! Еще и постит на LinkedIn неустанно.
В Nvidia уровни слегка более инфлированные, поэтому это равносильно росту с IC4 (Mid RS) до IC7 (Senior Staff RS) в Мете или Гугле за 3.5 года. Это очень-очень бодро – чел действительно должен офигеть как мощно перформить, либо ему должно очень везти с проектами.
У него в описании примерно видно, что именно нужно делать, чтобы так быстро расти. "Получил best-paper award на NeurIPS", "Основал новую команду по работе над Foundation Agent for Robotics".
Желаю всем читателям таких же успехов в карьере!
#карьера #bigtechlevels
@ai_newz
Чел вырос с mid-level Research Scientist до Директора за 3.5 года! Еще и постит на LinkedIn неустанно.
В Nvidia уровни слегка более инфлированные, поэтому это равносильно росту с IC4 (Mid RS) до IC7 (Senior Staff RS) в Мете или Гугле за 3.5 года. Это очень-очень бодро – чел действительно должен офигеть как мощно перформить, либо ему должно очень везти с проектами.
У него в описании примерно видно, что именно нужно делать, чтобы так быстро расти. "Получил best-paper award на NeurIPS", "Основал новую команду по работе над Foundation Agent for Robotics".
Желаю всем читателям таких же успехов в карьере!
#карьера #bigtechlevels
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.5 Pro прошла Pokemon Blue
Всего пару месяцев назад Claude посадили играть в покемонов, где модель успешно застряла на одном моменте. Cейчас у Gemini 2.5 Pro вышло пройти игру полностью.
Достижение заметное, но не означает превосходство одной модели над другой — модели запускали в разных средах с разным доступом к инфе. К примеру, помимо картинки, Gemini получала некоторые данные напрямую из движка игры и имела несколько подсказок по прохождению в промпте, без этого у модели играть не выходит. Да и в тренировочных данных ллм было полно инфы и советов по прохождению, с новой игрой было бы сложнее.
Вообще хотелось бы, чтобы это оформили в виде бенчмарка, но тут важно чтобы не пришли юристы Нинтендо и не засудили всех причастных. А как такое появится, там и до спидранов недалеко.
@ai_newz
Всего пару месяцев назад Claude посадили играть в покемонов, где модель успешно застряла на одном моменте. Cейчас у Gemini 2.5 Pro вышло пройти игру полностью.
Достижение заметное, но не означает превосходство одной модели над другой — модели запускали в разных средах с разным доступом к инфе. К примеру, помимо картинки, Gemini получала некоторые данные напрямую из движка игры и имела несколько подсказок по прохождению в промпте, без этого у модели играть не выходит. Да и в тренировочных данных ллм было полно инфы и советов по прохождению, с новой игрой было бы сложнее.
Вообще хотелось бы, чтобы это оформили в виде бенчмарка, но тут важно чтобы не пришли юристы Нинтендо и не засудили всех причастных. А как такое появится, там и до спидранов недалеко.
@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Нейродайджест за неделю (#67)
LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)
Генеративные модели
- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.
Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.
> Читать дайджест #66
#дайджест
@ai_newz
LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)
Генеративные модели
- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.
Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.
> Читать дайджест #66
#дайджест
@ai_newz
Radiance Fields and the Future of Generative Media
Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?
Лекция на youtube
#ликбез
@ai_newz
Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?
Лекция на youtube
#ликбез
@ai_newz
YouTube
Radiance Fields and the Future of Generative Media
In this talk, I will:
1) review recent work from our team on reconstructing and generating 3D worlds using radiance fields,
2) discuss how I think about the different varieties of radiance field techniques (NeRF, Instant NGP, 3DGS, etc) that are currently…
1) review recent work from our team on reconstructing and generating 3D worlds using radiance fields,
2) discuss how I think about the different varieties of radiance field techniques (NeRF, Instant NGP, 3DGS, etc) that are currently…
Google обновили Gemini 2.5 Pro
Новая версия Gemini 2.5 Pro Preview 05-06 гораздо лучше кодит, особенно это проявляется в фронтенде — модель заняла первое место на вебдев арене, обогнав Claude 3.7 Sonnet. Модель уже доступна в Vertex и AI Studio.
@ai_newz
Новая версия Gemini 2.5 Pro Preview 05-06 гораздо лучше кодит, особенно это проявляется в фронтенде — модель заняла первое место на вебдев арене, обогнав Claude 3.7 Sonnet. Модель уже доступна в Vertex и AI Studio.
@ai_newz
Mistral Medium 3
Новая модель от Mistral, опять без ризонинга, опять не сравнивают с Qwen и Gemini, весов простым смертным не дают. Но как закрытая инстракт модель вполне хорошая: почти на уровне с Sonnet 3.7, но при этом в 7 раз дешевле — $0.4/$2 против $3/$15 у соннета.
Mistral Medium 3 уже доступна в API. Через несколько недель обещают модель побольше, надеюсь уже с ризонингом.
Блогпост
@ai_newz
Новая модель от Mistral, опять без ризонинга, опять не сравнивают с Qwen и Gemini, весов простым смертным не дают. Но как закрытая инстракт модель вполне хорошая: почти на уровне с Sonnet 3.7, но при этом в 7 раз дешевле — $0.4/$2 против $3/$15 у соннета.
Mistral Medium 3 уже доступна в API. Через несколько недель обещают модель побольше, надеюсь уже с ризонингом.
Блогпост
@ai_newz
Сколько стоит минута AI-фильма и как победить в крупнейшем конкурсе этих фильмов?
Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.
Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.
Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?
Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.
PDF в комментариях
@ai_newz
Этой зимой проходил, пожалуй, один из самых больших и влиятельных конкурсов AI-фильмов — Project Odyssey Season 2. Думаю, почти все AI-художники про него слышали и, может, даже участвовали. Так вот, опросив 500 финалистов, организаторы подбили крайне интересную статистику, ознакомиться с которой можно в прикреплённом файле.
Что интересного:
- Performance Score (очки/заявку) — самый интересный слайд. Он показывает, какие инструменты реально эффективнее для побед, и в среднем сколько ими созданные фильмы набирали очков. Удивительно, но на втором месте Recraft, а популярнейший Kling (на тот момент 1.6 или старее) по этому показателю — аутсайдер, хотя это как раз-таки может быть связанно с его популярностью, что повлияло на средний скор – ведь среди топовых мест все равно много кто использовал клинг.
- Профессиональный опыт всё ещё решает: победители чаще использовали продукты Adobe и Topaz, тогда как CapCut лежит на дне Performance Score, что в общем-то не удивительно.
- Сценарий AI пока не напишет: ChatGPT для сюжетов оказался так же неэффективен по Performance Score. А LTX Studio ( тулза для полной автоматизации, которая заслуживает отдельного поста) в этот список даже не вошёл, хоть и был популярен даже у финалистов.
- Winner Index — Если нужен один главный список инструментов, типа «ТОП-50 AI ИНСТРУМЕНТОВ ДЛЯ ГЕНЕРАЦИИ ВИДЕО...» , которые летали по телеграмму год назад, пока это всем не надоело. Это усреднённый, по всем категориям, рейтинг от авторов отчёта.
- 1 минута AI-фильма = $70 на токены + 12 часов работы. Причём 91.4% финалистов потратили 10+ часов.
Как победить или секрет успеха:
- Команда решает. (См. слайд "Team Size" в отчёте).
- Образование не главное. «Корочка» не нужна, что для многих хорошие новости.
- Запаситесь бюджетом: даже с учётом бонусов и токенов, финалисты в среднем тратили $200 при условии, что труд бесплатный.
- Оригинальная музыка > AI-музыка. Ни одна работа со сгенерированной аудиодорожкой не получила награду. Возникает вопрос: судьи оценивали только видео или весь продукт целиком?
Ну и остаётся только добавить дисклеймер: вся эта статистика, а как следствие и выводы, подвержены сильному байесу из-за специфичности выборки и условий конкурса (об этом можно подробнее почитать в документе). Но в целом результаты совпадают с моим мировоззрением, так что на них можно примерно ориентироваться.
PDF в комментариях
@ai_newz
Почему цена за токен — это ещё не всё
Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.
Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.
@ai_newz
Artificial Analysis недавно начали замерять цену за прогон их набора тестов, дошли они и до новых моделей Google. Вышло что Gemini 2.5 Flash с ризонингом вплоть до 150 раз дороже оригинальной Gemini 2.0 Flash. Мало того — на одних и тех же задачах она стоит почти в полтора раза дороже o4-mini-high, несмотря на то, что o4-mini дороже Gemini 2.5 Flash за токен.
Без ризонинга ситуация тоже так себе — хоть цена за токен, по сравнению с 2.0, выросла всего в 1.5x, реальная цена модели выросла в четыре раза. Дело в том что модель более разговорчивая и выдаёт, в среднем, в 2.6x больше токенов на одних и тех же задачах. Так что перед переходом всегда стоит тестить стоимость модели на реальных задачах.
@ai_newz
Seed-Coder 8B
Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.
Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.
Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.
Веса: Reasoner/Instruct
Техрепорт
@ai_newz
Лучшая в своей весовой категории LLM для кодинга, прямо от китайцев из Bytedance. Бьёт даже недавний Qwen 3 на коде, но даже не пытается конкурировать на других задачах. Кроме обычной инстракт модели натренировали и ризонер. При этом всём модель натренировали всего на 6 триллионах токенов, что крайне мало — датасеты лучших открытых моделей сейчас уже часто больше 30 триллионов токенов.
Ключевой элемент тренировки — "model-centric" пайплайн. Специальные LLM-фильтры оценивают код (читаемость, модульность и другие аспекты) из GitHub и веб-источников, отсеивая низкокачественные примеры. Таким образом они фильтруют данных примерно на ~2.3 триллиона токенов. Затем модель тренируют в течении 6 триллионах токенов, что даёт небольшую несостыковку. Скорее всего какие-то данные повторялись в датасете несколько раз, но авторы пейпера не говорят об этом напрямую.
Инстракт-версию тренируют через SFT (на синтетике, которую тоже LLM нагенерили и отфильтровали) и DPO. Ризонинг-модель дрессируют через LongCoT RL, чтобы она лучше решала сложные задачки. Итог: Seed-Coder рвёт опенсорс-аналоги своего размера на бенчмарках (генерация, автодополнение, ризонинг и т.д.), а местами и более жирные модели.
Веса: Reasoner/Instruct
Техрепорт
@ai_newz