Telegram Group & Telegram Channel
Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz



group-telegram.com/ai_newz/2894
Create:
Last Update:

Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2894

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from sg


Telegram эйай ньюз
FROM American