Telegram Group & Telegram Channel
Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz



group-telegram.com/ai_newz/2888
Create:
Last Update:

Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2888

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike.
from vn


Telegram эйай ньюз
FROM American