Ну что, готовы к новому релизу от DeepSeek?
На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.
Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.
Веса
@ai_newz
На 🤗 только что появились веса DeepSeek Prover V2 671B — новой модели для доказательства теорем и математики. Оригинальный DeepSeek Prover был версией DeepSeek Math 7B, затюненной на доказательство теорем при помощи Lean. В версии 1.5 добавили RL и MCTS. Новая модель идёт в двух размерах — 671B и 7B, причём даже 7B модель бьёт лучшую известную модель — ризонер на основе Qwen 2.5 72B, а ведь Kimina Prover вышла всего пару недель назад.
Такие модели нужны потому что, несмотря на гигантские прорывы в ризонинге, современные модели вроде Gemini 2.5 Pro и o3-mini (по o4-mini и o3 результатов пока что нет) всё ещё плохо справляются с формальной математикой. Основная проблема — формализация, general-purpose могут решить задачу, но не могут её формализовать, в отличие от специализированных моделей. Это сильно уменьшает их полезность — проверка правильное ли решение выдала LLM в куче реальных задач сопоставима по сложности с доказательством вручную. Так что специализированные LLM для математики всё ещё имеют смысл.
Веса
@ai_newz
Сбер представил первую на русском языке модель с нативным восприятием аудио
Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.
Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.
Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.
Пост на хабре
Гигачат
@ai_newz
Тут прикрутили аудио-модель к GigaChat 2 LLM, то есть на вход можно подавать сразу и текст и звук, который преобразуется в токены и подаётся в LLM. Это примерно как в 4o, только пока без генерации аудио, но зато теперь есть полноценное понимание звука.
Моделька распознаёт эмоции и звуки, музыку и речь на других языках. Из фишек — длина контекста в 170 минут, хватит аж на две лекции подряд (привет студентам, как там диплом?). При этом базовые метрики упали, но незначительно.
Пишут, что скоро стоит ждать полноценную speech-to-speech модель. Тогда мы получим настоящий аналог 4o. И там уже можно закрывать все колл-центры в РФ. Ведь, как показала практика, боты куда эффективнее убеждают людей. А значит, они смогут лучше продавать.
Пост на хабре
Гигачат
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Помните какое-то время назад, после появления первого ChatGPT, было много разговоров про замену им гугл поиска, но было непонятно как они заменят revenue от рекламы, на которой и держится бизнес модель поиск гугла. Но вот, видимо, дозрели.
Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"
Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат😅 ).
https://x.com/OpenAI/status/1916947243044856255
@ai_newz
Наконец-то чатботы дошли до нормальной монетизации (лол)! Теперь в дилоге, как бы между делом, чатгпт будет вам впаривать товары. "Дорогой, ты интересовался про то, как варить эспреессо... не хочешь ли классную кофе машинку приобрести на скидке?"
Теперь логично было бы и новые планы ввести - чтобы отключить рекламу вас попросят доплатить (а нативную рекламу все равно не отключат
https://x.com/OpenAI/status/1916947243044856255
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
В Yandex Cloud стали доступны VLM-модели через API
Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.
Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.
На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.
@ai_newz
Через стандартный API теперь можно вызвать разные опенсорсные VLM-ки — в разных размерах там представлены Qwen 2.5, DeepSeek VL2 и семейство Gemma3.
Вызывать модели можно только в батч-режиме (Batch Processing API). Он позволяет обрабатывать сразу много запросов с 50% скидкой, но результаты будут не сразу, а в течении дня — удобная штука, я таким пользовался. Эта фича позволяет неплохо сэкономить — есть ведь куча применений VLM, где ответы в реальном времени не очень нужны.
На платформе также доступны и текстовые модели - вроде LLaMa 3.3 и совсем нового семейства Qwen3. Есть и ризонеры — QwQ и DeepSeek R1.
@ai_newz
F Lite — 10B t2i на лицензированных данных
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
Опенсорсная модель основанная на лицензированном датасете в 80 млн изображений. Это интересная попытка сделать абcолютно copyright-safe модель при довольно скромных ресурсах. Но есть большие сомнения, что так можно получить хоть какое-то достойное качество. Сейчас модель генерит очень плохо. На примерах тут лютый черипик.
Технически это DiT с регистрами на 10 млрд параметров, тренировали его два месяца на 64 H100. Для тюнинга гиперпараметров использовался µP. Кстати, при тренировке использовали трюк по value-residual learning из спидранов тренировки GPT. Кроме основной модели, релизнули ещё и тюн для генерации текстур.
Хоть и основная дифузионная часть была натренирована на данных к которым ни у кого претензий не будет, но VAE там все же от Flux Schnell - который тренировали потенциально на всем интернете. Если подитожить, то экперимент интересный, но результат очень слабый. Тут сказываается и малый объем данных и малая длительность тренировки для такой большой модели.
Демо
Веса
Код
Техрепорт
@ai_newz
Сегодня день трудящихся, поэтому принес вам пример отличной карьеры трудяги.
Чел вырос с mid-level Research Scientist до Директора за 3.5 года! Еще и постит на LinkedIn неустанно.
В Nvidia уровни слегка более инфлированные, поэтому это равносильно росту с IC4 (Mid RS) до IC7 (Senior Staff RS) в Мете или Гугле за 3.5 года. Это очень-очень бодро – чел действительно должен офигеть как мощно перформить, либо ему должно очень везти с проектами.
У него в описании примерно видно, что именно нужно делать, чтобы так быстро расти. "Получил best-paper award на NeurIPS", "Основал новую команду по работе над Foundation Agent for Robotics".
Желаю всем читателям таких же успехов в карьере!
#карьера #bigtechlevels
@ai_newz
Чел вырос с mid-level Research Scientist до Директора за 3.5 года! Еще и постит на LinkedIn неустанно.
В Nvidia уровни слегка более инфлированные, поэтому это равносильно росту с IC4 (Mid RS) до IC7 (Senior Staff RS) в Мете или Гугле за 3.5 года. Это очень-очень бодро – чел действительно должен офигеть как мощно перформить, либо ему должно очень везти с проектами.
У него в описании примерно видно, что именно нужно делать, чтобы так быстро расти. "Получил best-paper award на NeurIPS", "Основал новую команду по работе над Foundation Agent for Robotics".
Желаю всем читателям таких же успехов в карьере!
#карьера #bigtechlevels
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Gemini 2.5 Pro прошла Pokemon Blue
Всего пару месяцев назад Claude посадили играть в покемонов, где модель успешно застряла на одном моменте. Cейчас у Gemini 2.5 Pro вышло пройти игру полностью.
Достижение заметное, но не означает превосходство одной модели над другой — модели запускали в разных средах с разным доступом к инфе. К примеру, помимо картинки, Gemini получала некоторые данные напрямую из движка игры и имела несколько подсказок по прохождению в промпте, без этого у модели играть не выходит. Да и в тренировочных данных ллм было полно инфы и советов по прохождению, с новой игрой было бы сложнее.
Вообще хотелось бы, чтобы это оформили в виде бенчмарка, но тут важно чтобы не пришли юристы Нинтендо и не засудили всех причастных. А как такое появится, там и до спидранов недалеко.
@ai_newz
Всего пару месяцев назад Claude посадили играть в покемонов, где модель успешно застряла на одном моменте. Cейчас у Gemini 2.5 Pro вышло пройти игру полностью.
Достижение заметное, но не означает превосходство одной модели над другой — модели запускали в разных средах с разным доступом к инфе. К примеру, помимо картинки, Gemini получала некоторые данные напрямую из движка игры и имела несколько подсказок по прохождению в промпте, без этого у модели играть не выходит. Да и в тренировочных данных ллм было полно инфы и советов по прохождению, с новой игрой было бы сложнее.
Вообще хотелось бы, чтобы это оформили в виде бенчмарка, но тут важно чтобы не пришли юристы Нинтендо и не засудили всех причастных. А как такое появится, там и до спидранов недалеко.
@ai_newz
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатил на весь США свой новый режим поиска «AI Mode» – это новая вкладка вроде картинок, карт, а внутри что-то вроде поиска в чатгпт или перплексити, с памятью, карточками товаров и тп, вы все это видели уже
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Это гигантский шаг на встречу массовой адаптации LLM, с чем я всех нас и поздравляю
Нейродайджест за неделю (#67)
LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)
Генеративные модели
- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.
Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.
> Читать дайджест #66
#дайджест
@ai_newz
LLM
- Qwen 3 — открытые гибридные ризонеры, SOTA в своих классах. Могут работать и как обычные LLM, и как ризонеры (ответ Claude 3.7 и Gemini 2.5 Flash).
- Официальное API Llama — мультимодальность, тулы, для тюна и проверки моделей, а главное — возможность скачивать свои затюненные модели.
- DeepSeek Prover V2 — две модели для доказательства теорем и математики — 671B и 7B, даже 7B обходит специализированные SOTA и лучше флагманских ризонеров в формальной математике.
- Нативное аудиовосприятие в GigaChat 2 — Сбер представил первую русскоязычную модель (пока без генерации аудио), понимающую звуки, шумы и настроение говорящего нативно, а не через транскрипцию.
- Опенсорс VLM в Yandex Cloud — через API стали доступны VLM-ки Qwen, DeepSeek VL и Gemma3, в том числе в экономичном батч-режиме.
- LLM убедительнее людей? — эксперимент на Reddit r/ChangeMyView показал, что LLM, анализируя профиль оппонента, могут менять его мнение в 6 раз эффективнее человека.
- Реклама в ChatGPT — OpenAI экспериментирует с нативной рекламой товаров прямо в диалогах.
- Gemini 2.5 Pro прошла Pokemon Blue — которую Claude не осилил. Без нюансов не обошлось. Ждём бенчмарк для LLM геймеров)
Генеративные модели
- Видео дайджест — обзор свежих опенсорс видео-моделей (SkyReels-V2, FramePack, MAGI-1) и других плюшек вроде Avatar FX и Runway GEN-4 References.
- F Lite 10B — опенсорс T2I модель, обученная на лицензированном датасете в 80М картинок. Качество добротное, но до FLUX далеко.
Прочее
- Из мидла в директора за 3.5 года — мотивационный пример на день трудящихся.
- AI Mode в Google Поиске — Google выкатил аналог Perplexity/ChatGPT поиска, интегрировав LLM в основной Гугл поиск. Огромный шаг к массовой адаптации AI, который для нас с вами кажется пшиком.
> Читать дайджест #66
#дайджест
@ai_newz
Radiance Fields and the Future of Generative Media
Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?
Лекция на youtube
#ликбез
@ai_newz
Обзорная лекция от бати нерфов, Джона Баррона, где он проходится по своему ресёрчу и истории radiance fields за последние пять лет. Они крайне сильно переплетены — Джон был одним из соавторов оригинального пейпера о NeRF, а с тех пор выступил автором и соавтором десятков работ на эту тему. Но об этом лишь половина лекции — вторая половина отвечает на главный вопрос: зачем вообще нужна генерация 3д контента в современном мире?
Лекция на youtube
#ликбез
@ai_newz
YouTube
Radiance Fields and the Future of Generative Media
In this talk, I will:
1) review recent work from our team on reconstructing and generating 3D worlds using radiance fields,
2) discuss how I think about the different varieties of radiance field techniques (NeRF, Instant NGP, 3DGS, etc) that are currently…
1) review recent work from our team on reconstructing and generating 3D worlds using radiance fields,
2) discuss how I think about the different varieties of radiance field techniques (NeRF, Instant NGP, 3DGS, etc) that are currently…
Google обновили Gemini 2.5 Pro
Новая версия Gemini 2.5 Pro Preview 05-06 гораздо лучше кодит, особенно это проявляется в фронтенде — модель заняла первое место на вебдев арене, обогнав Claude 3.7 Sonnet. Модель уже доступна в Vertex и AI Studio.
@ai_newz
Новая версия Gemini 2.5 Pro Preview 05-06 гораздо лучше кодит, особенно это проявляется в фронтенде — модель заняла первое место на вебдев арене, обогнав Claude 3.7 Sonnet. Модель уже доступна в Vertex и AI Studio.
@ai_newz
Mistral Medium 3
Новая модель от Mistral, опять без ризонинга, опять не сравнивают с Qwen и Gemini, весов простым смертным не дают. Но как закрытая инстракт модель вполне хорошая: почти на уровне с Sonnet 3.7, но при этом в 7 раз дешевле — $0.4/$2 против $3/$15 у соннета.
Mistral Medium 3 уже доступна в API. Через несколько недель обещают модель побольше, надеюсь уже с ризонингом.
Блогпост
@ai_newz
Новая модель от Mistral, опять без ризонинга, опять не сравнивают с Qwen и Gemini, весов простым смертным не дают. Но как закрытая инстракт модель вполне хорошая: почти на уровне с Sonnet 3.7, но при этом в 7 раз дешевле — $0.4/$2 против $3/$15 у соннета.
Mistral Medium 3 уже доступна в API. Через несколько недель обещают модель побольше, надеюсь уже с ризонингом.
Блогпост
@ai_newz