Telegram Group Search
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment

Новый апскейлер картинок от KAIST AI. Неплохо?

Принцип работы такой:

CoZ использует уже обученную модель для повышения разрешения, разбивая процесс на несколько этапов.

На каждом этапе модель применяет текстовые подсказки, сгенерированные специальной моделью, чтобы улучшить качество изображения при увеличении.

Это позволяет достигать экстремальных уровней увеличения (например, от 16x до 256x) с сохранением деталей и качества изображения.

Под капотом - #SD3, Qwen2.5-VL-3B-Instruct и какая-то модель RAM. Говорят, что 24 ГБ должно хватать, но рекомендуют 2 GPU

Код
Демо

Спасибо @asleephidden

#upscale
Sora бесплатно

Но только в мобильном приложении Bing

Устанавливаем Bing, в настройках Bing выставляем регион United States. Илем на экран со всеми сервисами и выбираем Video Creator. Если там нет интерфейса для создания видео, включаем впн.

Дают 10 бесплатных быстрых генераций, на обычные лимита нет. Не дают меня соотношения сторон и хронометраж, жёстко 9:16, 5 секунд

IOS / Android

#mobile #iOS #android #text2video
This media is not supported in your browser
VIEW IN TELEGRAM
PlayDiffusion

Редактирование речи - инпейнтинг звука речи на основе диффузии от Play HT / Play AI или как их там...

Сохраняет окружающий контекст, обеспечивая плавные переходы и согласованные характеристики говорящего.

Принимает на вход аудио до 50 секунд, файл до 50Мб


Попробовать на офсайте
Демо на HF
Веса
Код

Еще из новинок сервиса: липсинк


#audioinpainting #speech2speech #speechediting #tts #lipsync #text2speech
This media is not supported in your browser
VIEW IN TELEGRAM
У Suno опять обновки

Обновленный Song Editor: редактируйте все, что только можете себе представить. Меняйте порядок, переписывайте и переделывайте свой трек фрагмент за фрагментом — прямо из формы сигнала.

#musicediting
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAudio S1

полностью кастомный ИИ-диктор от Fish Audio
Говорят что занял первое место на TTS-арене - не нашел

Клонирует голос за 15 секунд.
Можно выбирать любые эмоции, паузы, вздохи, шепот, крики, акценты и стили озвучки вашего текста.

Подходит для озвучки видео, аудиокниг, подкастов и так далее.

Поддерживает русский язык

#tts #text2speech #voicecloning
Google AI Edge Gallery

Экспериментальное приложение Гугла для локального запуска ИИ-моделей на смартфоне

Основные возможности:

- Генерация изображений
- ИИ-чат без интернета
- Написание и редактирование кода
- Анализ изображений ("Ask Image")
- Prompt Lab с готовыми шаблонами для различных задач
- Поддержка моделей Google Gemma 3n и других
- AI Chat: участвуйте в многопользовательских беседах.
- Анализ производительности: тесты в реальном времени (TTFT, скорость декодирования, задержка).
- Загрузите свою собственную модель: протестируйте местные .taskмодели LiteRT.
- Ресурсы для разработчиков: быстрые ссылки на карточки моделей и исходный код.

Android
iOS ждем

#mobile #android #assistant #tools
Wan2.1-VACE Native Support and Ace-Step Workflow Refined

Нативная поддержка редактора видео VACE в #ComfyUI
+ обновка воркфлоу генератора музыки Ace-Step

Воркфлоу по ссылке в заголовке

а еще они придумали как сшивать картинки в коллаж для сборки в Flux Kontext

#workflow #text2music #videoediting #imageediting #text2image #vibeediting
⚡️ 200 нейросетей для изображений, которые заменят тебе двадцать отделов дизайнеров — эпичная подборка

Что внутри: нейросети для генерации изображений, веб-дизайн, 3D-модели, улучшение фото, логотипы и т. п. Сохранил в таблице, с кратким описанием и разделами.

Забрать файл здесь →

Еще подборки:

🔹40 бесплатных курсов по нейросетям: русские и зарубежные [+видеоуроки]
🔹285 нейросетей, которые взорвут твою продуктивность
🔹100 гайдов по промпт-инжинирингу от OpenAI, Google, Microsoft, Яндекса и другие
🔹80 нейросетей, которые помогут тебе разобраться в теме и проанализируют десятки источников

Присоединяйся к 7500+ подписчиков в Бегин, чтобы получать полезные подборки каждую неделю.

#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Chatterbox TTS

Генератор речи в опенсорсе от Resemble AI

#SOTA в клонировании голоса без обучения? клонирует по 5-секундному образцу

Под капотом 0.5B Llama.
Уникальный контроль выразительности.
Водяные знаки на выходе.
Легкий скрипт для конверсии голоса.
Превосходит ElevenLabs.

Есть в Pinokio

Код
Демо - по русски не понимает, генерирует эльфийский
Веса

#tts #text2speech #voicecloning
WanGP

Инструмент для запуска видеогенераторов на GPU от 6 ГБ VRAM

Позволяет генерировать видео длительностью более 10 секунд с разрешением 720p на RTX 4090 и 480p с менее чем 12 ГБ VRAM.

Поддерживает Wan, Hunyuan Video и LTV Video/ Добавили поддержку Phantom 14Bб Wan CausVidб VACE

- Поддержка старых графических процессоров (RTX 10XX, 20xx, ...)

-Интегрированные инструменты для облегчения создания видео: редактор масок, усилитель подсказок, временная и пространственная генерация

- Поддержка лор

- Очередь заданий

#tools #text2video #image2video #video2video #optimization
This media is not supported in your browser
VIEW IN TELEGRAM
Самое время подготовить MacBook к жаркому лету

Снаружи — как новый, а внутри — пыль и шерсть. Вентиляторы шумят, Мак греется и тормозит, а его срок службы сокращается. Летом это особенно заметно.

Мы в бробролабе наводим порядок — чтобы всё работало легко и тихо, как в первый день. Профилактика продлевает жизнь Mac и защищает от перегрева.

Почистим систему охлаждения, проверим «внутренности», освободим место и сделаем диагностику 32+ тестами Apple. Расскажем, если что-то требует внимания.

📦 Можно заглянуть лично или вызвать курьера
📋 Диагностика до и после — бесплатно
🛠 Гарантия от 6 месяцев

Пусть техника дышит свободно, а вы — наслаждаетесь Apple.

👉🏻 Узнать цены и записаться 👈🏻

Сообщите промокод броброточка, и получите комплексную чистку по цене профилактики (экономия от 1,5 тыс. руб, дополнительно чистка клавиатуры и замена термопасты)

Адрес:
Москва, Дербеневская ул., 1
м. Павелецкая / Пролетарская
пн-сб: 12:00–21:00
воскресенье — выходной
На карте: https://yandex.ru/maps/org/1892084024

Реклама ООО "БРОБРОЛАБ" ИНН 7725289946

#промо
This media is not supported in your browser
VIEW IN TELEGRAM
Luma Modify Video

Обновка видеогенератора Ray2.

• Позволяет стилизовать видео длиной до 10 секунд с сохранением динамики персонажей, лицевой анимации и деталей фона.
• Можно изолировать отдельные элементы, такие как одежда, лица и предметы
• Позволяет подавать визуальные референсы

Доступно на тарифах Unlimited и Enterprise.

#videoediting #stylize
Media is too big
VIEW IN TELEGRAM
TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation

Легковесная китайская модель для разделения речи, музыки, эффектов

Хвастаются что бьют #SOTA модель TF-GridNet

Код

#audioseparation #demix #unmix
This media is not supported in your browser
VIEW IN TELEGRAM
MMaDA - Open-Sourced Multimodal Large Diffusion Language Models

Рассуждающая визуально-языковая модель

Умеет генерировать картинки по тексту? понимать их и рассуждать

Код
Демо

#vlm #reasoning
Media is too big
VIEW IN TELEGRAM
Sky

Агент-ассистент для #Mac

Может выполнять действия и отвечать на вопросы для любого окна и любого приложения, открытого на вашем Mac

Под капотом GPT 4.1 или Claude. Умеет пользоваться MCP

Большой обзор
Записаться в вейтлист

#agent
2025/06/18 14:55:21
Back to Top
HTML Embed Code: