Telegram Group & Telegram Channel
Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz



group-telegram.com/ai_newz/2888
Create:
Last Update:

Elevenlabs жестко тролит гугл.

Бедные работяги из DeepMind только выложили блогпост о том, как они научились генерировать звук для видео, так ребята из Elevenlabs за сутки своротили похожую тулзу, да дали доступ к API, да еще и веса выложили.

Я уже было подумал, что последние просто разнесли гугл, лол. Посмотрел, что там да как, и просто орнул. Чуваки из Elevenlabs просто берут пару кадров из инпут-видео, скармливают GPT-4, который пишет промпт для их свежей txt2sfx модели. Рабоатет на удивление не так уж плохо - но хуже гугловской.

В целом, гугловская моделька имеет более фундаментальный подход, где сначала в диффузионную модель кормится текстовый промпт и все токены из видео, а по ним уже генерируется аудиодорожка. Модель хоть как-то да синхронизирует звук и видео - это видно на примерах. Особенно прикольный результат на видосе с гитарой.

Выше сравнение черепиков от DeepMind с моими zero-shot испытаниями Elevenlabs. Сами угадайте, где кто :) Качество видосов такое шакальное, потому что гугл их в таком виде выложили.

В методе Elevenlabs используются 4 кадра из первых 4-х секунд (поэтому последний подрезал в начале, иначе там просто шум), так что местами создается впечатление наличия какой-то синхронизации, особенно если выбрать лучший вариант из 4 предложенных.

video2sfx ElevenLabs
Код
txt2sfx ElevenLabs
Блогпост DeepMind

@ai_newz

BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2888

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from pl


Telegram эйай ньюз
FROM American