Telegram Group Search
OCTAVE (Omni-Capable Text and Voice Engine)

На полянке генерации голосов и вообще голосовых вводов\выводов становится довольно жарко и интересно.

Тут вот Hume AI разродился Октавой.

Это "speech-language model" с интересными фишками типа создания голоса и личности "на лету", генерацию голосов промптами и всяко-разно другое. Мне понравился сербский акцент и бруклинский таксист.

Можно сказать, что это ChatGPT Advanced Voice Mode, Elevenlabs Voice Design и Google NotebookLM в одном флаконе - просматривается некий будущий вижен, а не только голос в чатике.

Поглядите тут, сравнение с LLM тоже интересно:
https://www.hume.ai/blog/introducing-octave

На основе очень короткого аудиофрагмента (~5 с) OCTAVE не только имитирует голос говорящего, но и в значительной степени перенимает его эмоционально.

Аудиофейки на марше..

@cgevent
Привет, я Ярослав Шмулев, окончил МФТИ и рассказываю в канале моей студии о хардкорном внедрении AI в корпорациях и производствах)

Я не выкладываю новости из мира AI и генерации Миджорни, только суровый ентерпрайз, рассказываем о технических и бизнесовых нюнсах наших проектов, например, как:
- Внедряли AI для литья стали;
- Выявляли окллюзии головного мозга;
- Определяли овуляцию у свиноматок)))

Контент будет интересен разработчикам и продукт-овнерам, которые внедряют ИИ у себя.

Подписывайтесь, если интересно реальное внедрение Ai в корпорации: @r77_ai

#промо
Подброшу салатных новостей, новый год близко, я отчаянно заставляю себя меньше писать.

Новость в принципе не сильно шокирующая. Подписчики в коментах генерят в последнее время полностью идентичный контент, только лучше ибо с видео.

А я писал об это уже ПЯТЬ лет назад, сейчас найду (хороший текст, кстати):

Цифровать на итоге будут всех, если только фанатики не взорвут дата центры. Не этих актеров, так других, которые будут более сговорчивы и лояльны к ИИ и технологиям.
Более того, для звезд типа Бреда Пита или Марго Роби это будет еще пара нулей в контракте за доп. опцию. Продавать свой образ можно дорого, у кого он есть. У кого еще нет образа, придется соглашаться, чтобы увеличить "охваты" и "показы" своего не только снятого, но и оцифрованного лица. Больше охватов, больше шансов примелькаться и выйти в топ.
Остальным придется выбирать, либо цифровать башку и тушку, либо вон из профессии. Это все равно что сказать "я отказываюсь сниматься на цифру, только на пленку".

Полностью https://www.group-telegram.com/cgevent.com/6231

Это подводка к новости, которая вирусится в телеге:

33-летняя Хлоя Амур, звезда фильмов для взрослых, рассказала, что продала свою "схожесть" компании, занимающейся искусственным интеллектом, чтобы уменьшить нагрузку "от своей сложной карьеры".

На фотках выше только одна реальная. Остальное генератив.

Но мое диванное сообщение в том, что это вообще не новость. Адалт сидит на ИИ-топливе уже давно.

Самое пикантное, что на этой поляне уже давно топчется Метачка и еще пара крупных игроков, ибо high risk зеркала обычных технологий приносят ну очень хорошие деньги. Тем более, что цензура в руках творящего:

"Facebook и Instagram, как сообщается, размещают тысячи откровенных объявлений о созданных искусственным интеллектом компаньонах и "подружках" - и секс-работники обвиняют Мета в двойных стандартах, когда дело доходит до контроля за развратом. Некоторые секс-работники выразили обеспокоенность тем, что Мета отдает предпочтение секс-услугам, созданным искусственным интеллектом, и позволяет им размножаться, в то время как на Facebook и Instagram секс-работы людей запрещены как "взрослый контент".

https://nypost.com/2024/12/20/tech/porn-star-sells-likeness-to-ai-so-she-doesnt-have-to-work-as-much/

@cgevent
Ну за метаверсик и лыжные масочки.

Согласно последнему отчету TrendForce, мировые поставки гарнитур VR и MR в 2024 году составят около 9,6 млн единиц, что соответствует росту на 8,8% по сравнению с предыдущим годом.
И все такие .. ээ.. минутчку. А это много?
https://www.trendforce.com/presscenter/news/20241219-12419.html

Ресерчим?
Мировые поставки смартфонов в третьем квартале 2024 года выросли на 2% по сравнению с аналогичным периодом прошлого года и достигли 307 миллионов устройств.
https://www.counterpointresearch.com/insights/global-smartphone-share/

Ну то есть 9.6 миллионов и 1200+ миллионов...

Плюс есть "фактор полки". Я много раз проводил опросы и у 75 процентов купивших виар-шлем он давно лежит на полке и не используется. Юзер база не прирастает и не бьется с продажами.

Ниша остается нишей.

А вот легкие очки нас удивят в следующем году...

@cgevent
Вы спрашивали, далеко ль до AGI.

Да тут он уже. Сам рекламу размешает на биллбодах.

"Хватит нанимать кожаных!", говорит.

И ведь возразить ему нечего.

Подробнее тут:
https://www.creativebloq.com/creative-inspiration/advertising/these-bizarre-ai-billboards-are-a-dystopian-nightmare

Если хотите серьезно про AGI, то я душно писал тут:
https://www.group-telegram.com/cgevent.com/8384


@cgevent
Кому с нейросетями жить хорошо? Вопрос хороший, потому что на самоокупаемость от инвестиций в генеративки на сегодняшний день вышло примерно 0 компаний.

Советую к просмотру подкаст, в котором представители крупных российских компаний рассказывают, на какие продукты и технологии делают упор, как меняются стратегии в блоке genAI, в чем, если не в деньгах, измеряется профит, и что ждет бизнес в 2025 году.

YouTube
VK
Rutube
Адобченко обещает заопенсорсить свою видео-модель.

Вышла довольно подробная статья про видео-модель от Адобе, она немного гиковатая, но там есть некоторое количество деталей, любопытных простым смертным.

Создание одного кадра требует от модели обработки всей последовательности, включая будущее. We address this limitation by adapting a pretrained bidirectional diffusion transformer to a causal transformer that generates frames on-the-fly (сорри, это не перевести, не сломав глаза). Чтобы еще больше сократить время ожидания, мы расширяем дистилляцию согласования распределения (DMD) на видео, сводя 50-шаговую модель диффузии к 4-шаговому генератору.

Такой подход эффективно позволяет синтезировать видео большой длительности, несмотря на обучение на коротких клипах. Наша модель поддерживает быструю потоковую генерацию видео высокого качества со скоростью 9.4 FPS(!!) на одном GPU благодаря KV-кэшированию. Наш подход также позволяет осуществлять потоковую трансляцию video-to-video, image-to-video, and dynamic prompting
.

В будущем мы выпустим код на основе модели с открытым исходным кодом.

Поглядите примеры на сайте - часть из них светилась в рекламе Firefly Video от Адобченко. Но в статье нет НИ слова про Firefly.

Очень симпатичные примеры image2video.

Неужели зарелизят код?

https://causvid.github.io/

@cgevent
Не экономьте. Особенно на памяти.

Немного железного и холиварного оффтопа на выходных.

Моя лучшая железная покупка в жизни - Macbook Pro 17" в 2009 году
Там стоял процессор Intel Core i7 и, внимание, графика Nvidia! (мне кажется GeForce 9600M).

Это было время, когда Эппле еще не разосралась окончательно с Нвидия, и на Маках можно было работать в Maya без ущерба для психики.

Я гордо заплатил дополнительные 50 баксов за Матовый экран, чтобы не ловить блики-глюки и был просто счастлив этой машиной.

Она прожила у меня 7 лет, падала с велосипеда, глотала дахабскую пыль годами, была покрыта вмятинами и царапинами, путешествовала со мной без всяких чехлов по всей азии.

Первое, что я сделал, снес макось и поставил винду. Да, Эппле делает(делала?) очень хорошее алюминиевое железо. Точнее корпуса. Эта связка - корпус от Эппле плюс Винда оказалась просто неубиваемой.
Ибо на нее вставал любой софт, а 3Д-графика просто летала на Нвидии. А сколько там было портов!

Но самое приятное было в том, что я быстро выкинул оттуда штатную оперативку и поставил максимальное количество максимально быстрой памяти. Комп стал работать в 4 раза быстрее (пропал своппинг).
Потом я выкинул HDD и вставил самый быстрый SSD, который смог найти в 2011. Комп стал работать еще в 4 раза быстрее.
Это была неубиваемая машина-убийца в пуленепробиваемом, но легком корпусе от Эппле. 17 дюймов, которые были легче любых пятнашек той поры.

В конце концов постоянная египетская пыль убила четвертый разъем magsafe и очередной блок питания и коротнула на маму - а так бы машина работала до сих пор.

Сейчас это уже невозможно. Эппле все давно распаивает на маму, никакой апгрейд своими руками невозможен, но было время, когда можно было за 300 долларов увеличить производительность в 8 раз своими руками и головой.

Эппле так и не помирилась с Нвидия, и теперь гордые обладатели маков с удивлением вопрошают на Реддите: а почему на моем супермаке картинка генерится минуту, а на зашкварном ноуте со старой RTX за 6 секунд?

Времена меняются.

Но мой вам совет (в очередной раз) - не экономьте на памяти. Ее объем влияет на качество вашей жизни примерно на 90 процентов больше, чем частота процессора или количество ядер или все остальное.

А в 2024 году - это звучит как - не экономьте на видеопамяти. Берите максимум. Всегда. И забудьте (пока) про графику АМД, если вы генерите картинки или видео под столом\на столе. Про Маки забудьте тем более.

@cgevent
За креативность.

Вы заметили, как буквально за полгода куда-то подевались сторонники статистического попугая?
А также поборники чистоты кожаного творчества, недоступного тупому ИИ.
И свидетели креативности, присущей только кожаным.
Я уже лет десять наблюдаю, как кожаные жонглируют терминами без определений (творчество, креативность) в попытках сохранить собственное эго от разрушения (ИИ-последствиями).

И меня вчера аж подбросило, когда я прочитал у Игоря пост про Alpha Go и креативность.
Это не ИИ - бездушная тварь, это просто мы - тупые. Не видим красоты, а ИИ - видит. И умеет.

Почитайте, это прекрасно:
https://www.group-telegram.com/seeallochnaya/2178
2024/12/29 15:12:15
Back to Top
HTML Embed Code: