Telegram Group & Telegram Channel
Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz



group-telegram.com/ai_newz/2892
Create:
Last Update:

Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2892

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

I want a secure messaging app, should I use Telegram? For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from ms


Telegram эйай ньюз
FROM American