Telegram Group Search
Luma: начали выдавать доступ к своему новому видеогенератору Ray 2.

Модель натренирована напрямую на видео высокого качества, и хорошо понимает как в кадре должно работать взаимодействие людей, животных, и объектов. А также как создавать стабильных персонажей.

Может выдавать 1080p длиной 5-10 сек на основе текста или картинок.

Больше примеров в твиттере и по хэштегу #Ray2 там же.

Сайт
Amazon Bedrock
This media is not supported in your browser
VIEW IN TELEGRAM
Krea: добавили к себе генерацию видео в Kling 1.6, Хуньянь, и 01-Live (Хайлуо). Также теперь к нему можно генерить и звук.

Бесплатным пользователям дали доступ к генерации видео.

Твит
Котаны, на Tripo3D набралось 30 зарегавшихся по моей ссылке. Можно заклеймить Pro подписку и сделать обзор всех фич.

Кидайте в комменты ваши картинки/текст, которые хотите сгенерить в 3D, опробуем.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Pika
: добавили Turbo режим, позволяющий генерить видео в 3 раза быстрее, в 7 раз дешевле, и ,по заверениям, особой без потери качества. Также выпустили Pika V 2.1, генерящую видео в 1080p, высокой детализаций, контролем камеры и четким следованием промту. Ещё появилась апа для iOS.

Nvidia: выкатили генератор картинок SANA-1.5, который может выдавать 4096x4096 меньше, чем за 1 секунду на 16 ГБ VRAM ноуте. Релизу идёт 8-битный оптимизатор для экономии VRAM во время тренировки и масштабирования с 1.6B до 4.8B плюс 4-битный движок для инференса на 8 ГБ VRAM (демо). Также чуть ранее они выпустили генератор видео Cosmos, который выдаёт 1280x704 длиной в 121 кадр за 10 мин на 4090.

Tripo: в версии V2.5 улучшена геометрия мешей (особенно с острыми углами). Улучшенный PBR рендеринг.

ACE++: фреймворк для получения стабильных персонажей и объектов при их генерации на картинках.

HeyGen: добавили к контроль камеры к видео с аватарами. Даёте описание желаемого движения и вперед.

Sa2VA: выделение объектов на видео промтом. Работает на связке SAM2 и LLaVA.

Sketch-to-3D: делаем набросок от руки и получаем 3D объект через Trellis.

ZLUDA: CUDA для видюх AMD. Появились ночные релизы.

Hailuo: релизнули генератор видео T2V-01-Director с фокусом на контроле камеры промтом, её кинематографичных движениях и переходах. Помимо этого внедрили генерацию стабильных персонажей по реф картинке в модели S2V-01.

Kling: Добавили в V 1.6 генерацию видео по начальному и конечному кадру, мемные эффекты к видео как в Pika, а также фичу Elements, которая берёт элементы с нескольких реф картинок и делает, например, стабильного персонажа в нужном сеттинге. Для генерации картинок в Kolors завезли работу по рефу. Ещё Kling обзавёлся мобильной апой (iOS или Android). Что занятно, похожие мемные эффекты и комбинирование элементов недавно запилили у себя Pika.

DiffSplat: шустрый генератор 3D на основе сплатов и t2i диффузионных моделей.

MangaNinja: колоризация манги.

Frame Painter: интерактивное редактирование изображения скетчем на основе видео диффузионных приоров.

Luma: теперь можно апскейлить сгенерированные видео до 4К, и выпустили API для Ray 2.

HipScript: онлайн компилятор CUDA и HIP кода для WebGPU.

Comfy: завели реестр кастомных нод, упростили установку десктопного приложения, добавили поддержку 5090... которые так пока никто пощупать и не может.

Кстати воркфлоу теперь можно конвертировать в интерфейс на Gradio и публиковать на Хаггинге.

Netflix: выпустили модель для анимации картинок, через перетаскивание выделенных объектов на них.

Krea: объекты на реф картинках теперь можно конвертировать в 3D и крутить/перемещать/совмещать их в сцене до нужного результата. Если целевой объект, стиль, или продукт нужно сгенерить, то как раз завезли реалтайм тренировку — можно тренить, скажем персонажа, и крутить его в сцене. Или воспользоваться интегрированными стабильными персонажами Hailuo.

Runway: выпустили генератор картинок Frames. На этой странице можно посмотреть примеры генераций картинок во Frames и промты к ним. Плюс релизнули апскейл до 4k.

Midjourney: теперь можно смешивать несколько мудборд кодов, а также смешиват их со sref кодами.

Sony: исследование по тренировке микробюджетных генераторов картинок — Microdiffusion.

Tencent: выпустили Хуньянь 3D V2, который делает 3D меш по картинке на уровне Trellis. Лучше всего работает если закидывать объект под углом со считываемым освещением. Нужно минимум 8 ГБ VRAM. Сообщество уже наваяло аддон для блендора, портативную сборку на Windows, поддержку в комфи от Kijai, вписали модель в ComfyUI-3D-Pack.

Для видеогенератора Хуньянь GPU Poor версия (от 12 ГБ VRAM) обзавелась поддержкой лор и TeaCache для ускоренной генерации с меньшим количеством артефактов. В комфи от Kijai добавился улучшитель Enhance-A-Video, генерация в IP2V режиме (vlm вытаскивает описание реф картинки и скармливает видеогенератору).
DeepSeek: сделали модель Janus Pro 7B, которая может и генерить картинки (не убийца Flux конечно) и чатиться по загруженным.

Flex.1 Alpha
: Ostris сделал версию Flux на основе шнель с лицензией Apache. 8B параметров, можно гонять на видюхе.

SVFR: фреймворк для восстановления лиц на видео. Есть колоризация, инпейтинг, BFR.

Phygital+: улучшения в генерации 3D по картинке, поддержка лор на Flux.

PAR: параллелизация генераций без изменения архитектуры и токенайзера.

FitDit: новая виртуальная примерочная. Есть комфи.

DiffuEraser: сегментируем объекты на видео и удаляем их с учётом фона через инпейнт.

Google: дают пощупать Imagen 3, нужен IP на США.

Alibaba: по-тихому выпустили свой генератор видео в чате с Qwen. Примеры генераций.

Создание векторной бд с данными о видео записях, чтобы потом быстро находить нужный видос по кадру. Похоже на Marengo, только с CLI + Comfy.

Video Depth Anything: получаем карту глубины видео.

Shuttle Jaguar: генератор картинок с фокусом на эстетичных кадрах.

Hallo: выпустили V 3 аниматора портретов и датасет на хаггинге.

🎸 ЗВУК 🎸

YuE: новый опенсорсный генератор музыки. Пока песочно и дизгармонично (не конкурент Udio или Suno), но лучше MusicGen и любой движ в эту сторону уже хорошо. В принципе для инструменталок или семплов может сгодиться. Лицензия на днях сменилась на Apache, что позволяет коммерческое использование.

Suno: V4 стала доступна всем. Плюс треки в своей библиотеке теперь можно группировать в рабочие пространства (Workspaces). И появился AI-соавтор музыки для детальной работы с лирикой.

Riffusion: представили генератор музыки FUZZ. Звучит годно (не только на поп/рэп) и есть инструменты для контроля аудио. Небольшая предыстория проекта.

MMaudio: генератор аудио, анализирующий беззвучное видео и выдающий походящий звук. Крутилки в наличии.

Style TTS 2: давний генератор речи и клонер голоса, для которого появился установщик в Pinokio. Ещё есть демка.

Hailuo: сделали модель для работы с голосом T2A-01. Есть клонирование, генератор речи (TTS), и изоляция голоса. Крутилки присутствуют. В наличии HD версия для результатов в высоком качестве, и Turbo.

Kokoro: маленький, шустрый, и неплохой генератор речи, который можно гонять дома, а генерации использовать в коммерческих целях (Apache 2). Русского нет, но можно научить. Можно смешивать голоса в студии.. Гитхаб
🤖 ЧАТЫ 🤖

PyTorch: вышла V 2.6: появилась поддержка FP16 для x86 процессоров как в режиме eager, так и в режиме Inductor; улучшена работоспособность на видюхах Intel; и другое по мелочи.

Deepseek: про R1 отдельно поговорим.

OWUI: в релизах 0.5.4 — 7 теперь есть нативный тег thinking для моделей вроде DeepSeek R1, можно делиться чатами, расширенное управление моделями и правами пользователей, итд.

LM Studio: в V 0.3.7 — 9 thinking UI для DeepSeek R1, поддержка KV кэша для llama.cpp моделей, улучшение рендеринга LaTeX, улучшения в рантаймах.

Sakana: представили Transformer², систему в которой веса модели автоматически адаптируются под задачи. Так же они выпустили маленькую языковую модель, заточенную эффективно работать на мобилках. Правда только на японском.

OpenAI: выкатили агента Deep Research, который может глубоко уходить в анализ и возвращаться, когда всё прошерстил. Открыли бесплатным пользователям доступ к 03 mini (её натальная системная карта). Canvas теперь работает с o1 и может рендерить код на HTML и React. Также выпустили фичу Operator, позволяющую давать AI-агенту контроль над браузером. Для Pro подписчиков в США.

Browser Use: или дай опенсорсному AI-агенту на выбор выполнять задания у тебя в браузере бесплатно.

Bytedance: релизнули UI-TARS, фреймворк для выполнения AI-агентом заданий на компьютере, а не только в браузере.

Hailuo: выпустили в опенсорс генератор текста MiniMax-Text-01 размером 456B с контекстом 4М токенов (можно скормить библиотеку, но дома не погонять). Плюс чат по картинкам MiniMax-VL-01, но он тоже здоровый.

HuggingFace: запартнёрились с провайдерами компьюта Replicate, TogetherAI, Fal, итд. Теперь можно запускать модели прямо на Хаггинге при наличии API ключа. Реквистирую Runpod!

Alibaba: на волне хайпа по DeepSeek R1 вышли с Qwen2.5-Max самой мощной моделью в их линейке (доступна только в облаке), и Qwen2.5-1M с контекстом 1М (вагон документации) в размерах от 7B до 14B (можно гонять на видюхах). Также подогнали визуальную языковую модель Qwen 2.5 VLдля чата по видео и картинками, для которой народ уже сделал MLX на маки. Онлайн демо здесь или тут.

Tencent: выпустили языковые модели Hunyuan Large размером 389B и помельче 7B в виде Instruct и Pretrain вариков. Плюс размышляющую ллм Doubao 1.5 Pro на архитектуре MoE.

Mistral: выложили ллм Small 3, которая влезает в 4090 и на их бенчах кладёт модели размером 70B.

Perplexity: представили поисковую систему Sonar и Sonar Pro для соперничества с браузерными поисковиками и ллм.

Google: выпустили обновлённый Gemini Flash Thinking 01-21. Погоняй на арене.

X-Plug (alibaba): AI-агент для выполнения заданий на смартфоне.

VideoLlama3: обновлённые VLM для чата по видео и картинкам в размерах 2B и 7B.

AllenAI: выпустили Tülu 3 размером от 8B до 405B. Использование метода RLVR улучшило результаты в математике.

Anthropic: Claude теперь может цитировать ваши источники по API.

SmollVLM: выложен код использованный для тренировки модели.

OmAgent: библиотека на питоне для разработки AI-агентов.

Autonomy-of-Experts Models: исследование архитектуры с улучшенным взаимодействием экспертов, чем в MoE.

RLVR: Метод Reinforcement Learning with Verifiable Rewards, показывает себя лучше CoT в определенных задачах.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Команда «Море данных» datasea.me открывает вакансии на расширение.

Наша команда работает как на крупных заказчиков (Газпромнефть, СберУниверситет, Полюс Золото, корпорация Синергия) так и на собственных продуктовых линейках в сфере образования и цифрового HR. В команде как специалисты по ИИ так и разработчики, продуктологи, методисты.
Сейчас нас 30+ человек. Работаем на самом переднем крае образовательных инноваций, специализируемся на ИИ в образовании, датацентричном дизайне образовательного опыта, образовательном дата инжениринге. По результатам нашей работы вышла русская глава в книге Салмана Хана "Новые Миры образования".

Основные направления работы: цифровое образование, анализ качества речи с помощью ИИ, цифровые двойники способные к рассуждению, digital HR, конвертация текстов в графы знаний, цифровая диагностика с применением ИИ, работа с данными рынка труда. Пример

Ищем душевных людей, небезразличных к современному образованию, способных работать в 100% удаленке в режиме эксперимента и исследования над созданием инновационных сервисов на основе ИИ.

1️⃣ Middle/Senior Data Scientist/ Machine Learning (NLP)
(сейчас в команде 3 таких специалиста)

* На 50% ставки
* Удаленка, гибкий график.
* Оклад: 200-400 тр. (согласно квалификации)
* Возможно временное оформление: договор ГПХ, самозанятые, ИП

Требования:
— знание NLP стека и опыт работы в данной области
— понимание принципов устройства и обучения LLM и генеративных трансформеров
— опыт разработки NLP-моделей
— подтвержденный опыт работы с LLM
— подтвержденный опыт работы с RAG
— опыт работы со звуком (например апи elevenlabs)
— желателен опыт работы с deep learning

Резюме присылать в тг https://www.group-telegram.com/YuliaChuykova с пометкой ‘Data Scientist’

2️⃣ Prompt engineer
(сейчас в команде 5 таких специалистов)

* Оклад: 90 - 160 тр. (согласно квалификации)
* Удаленка, гибкий график
* Обязанности: написание промптов и промпт-сценариев для больших языковых моделей

Требования:
— Понимание принципов работы LLM, тюнинга поведения LLM с помощью промптов; обучаемость.
— Подтвержденный опыт проектов с прмт инженерией для языковых моделей
— интерес к сфере образования

Резюме присылать в тг https://www.group-telegram.com/YuliaChuykova с пометкой ‘промт инженер’

3️⃣ Дата инженер
(сейчас в команде 3 таких специалиста)

* Оклад (согласно квалификации)
* Удаленка, гибкий график.

Требуется опыт выполнения задач:
— Проектирование, создание, оптимизация схем данных для БД (PostgreSQL, MongoDB, возможно MySQL), включая индексы и, для реляционных баз, внешние ключи.
— Разработка и развёртывание автоматизированных краулеров для выгрузки данных со сторонних сайтов (как через парсинг страниц, так и через АПИ).
— Настройка пайплайнов обработки данных .
— Разработка конвертеров для данных и подготовка выгрузок в формате согласно требованиям аналитиков.
— Разработка и развёртывание REST API для доступа к данным.
— Настройка и поддержка резервного копирования данных.
— Возможны работы по CI/CD для ПО отдела (дата-инженерное ПО: краулеры, пайплайны, АПИ; аналитическое ПО: дашборды, ML-модели и т.д.).
— Возможны задачи по текущему администрированию и поддержке Linux-серверов отдела для работы на них упомянутого ПО.
Знание инструментов и технологий (по убыванию важности): Python, PostgreSQL, ssh/bash, REST API, Linux, MongoDB; желательно

Резюме присылать в тг https://www.group-telegram.com/YuliaChuykova с пометкой ‘дата инженер’
2025 только начался, а OTOY уже приглашает тебя в 2026.

OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.

На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.

Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.

Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.

Сайт
Скачать
This media is not supported in your browser
VIEW IN TELEGRAM
Pinokio к версии 3.6 так нормально проапгрейдили. Наконец-то есть домашняя страница с иконками AI-приложений. Также пофиксили много багов всплывавших при установке, перешли на UV для ускорения загрузки, и ещё много всего подкапотного.

Заставку можно менять, кстати.

Сайт
Скачать
2025/02/06 01:45:42
Back to Top
HTML Embed Code: