Forwarded from Data Secrets
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Был когда-то такой генератор картинок - Midjourney.
Так вот, он еще жив.
Держите последних новостей.
Midjourney V7 будет представлять собой полную переработку V6, включая:
- новую архитектуру, новые датасеты(!) и пересмотренные(revised,?!) подходы к обработке языка\промптов.
- улучшенное понимание промптов(наконец-то), согласованность и гибкая стилизация.
Возможные сроки: от недели до месяца на тестирование, плюс двухнедельная фаза окончательной раскатки.
V7 "очень всприпозднилась", в основном потому, что в ней переработаны почти все части системы.
В будущем ожидаются следующие расширения: Draft modes, large-batch modes, and specialized offshoots that vary in speed and quality. offshoots - это ответвления, форки, приподверсии.
Про видео-модель опять туман.
В процессе тестирования находятся несколько потенциальных решений, в том числе:
- Собственная модель видео.
- Возможное партнерство с внешними моделями.
- Исследование решений с открытым исходным кодом(!!!, шта?).
(похоже ребята в тупике)
Ключевые задачи:
- Сделать работу с видео "увлекательной" и не требующей чрезмерных затрат времени или средств.
- Баланс между скоростью, стоимостью и качеством вывода.
В прошлом году они писали, что видео-модель - это будет 2.5D модель, которая позволяет "заглядывать" в картинку с разных ракурсов, типа игрового движка на минималках.
Батч-режим:
- Пользователи просматривают большие наборы изображений, отмечая, что им нравится, а что нет.
Fast режим:
- почти реалтайм.
Батч плюс fast - быстрое дообучение на предпочтениях пользователя.
Мудборды:
- Combining mood boards with S-Ref (style/reference) or “character reference” capabilities.
Планируется подтолкнуть к персонализации пользователей, которые еще не пробовали ее, поскольку отзывы показывают: - Около 85% людей предпочитают изображения, созданные с помощью персонализации.
- В настоящее время основное внимание уделяется ускорению процесса персонализации, а не его усложнению.
Есть у меня ощущение, что все это я уже видел в прошлом году в опенсорсе. Но пользователи Midjourney - они как пользователи айфонов, будут колоться, плакать и ждать кактусы.
И API.
@cgevent
Так вот, он еще жив.
Держите последних новостей.
Midjourney V7 будет представлять собой полную переработку V6, включая:
- новую архитектуру, новые датасеты(!) и пересмотренные(revised,?!) подходы к обработке языка\промптов.
- улучшенное понимание промптов(наконец-то), согласованность и гибкая стилизация.
Возможные сроки: от недели до месяца на тестирование, плюс двухнедельная фаза окончательной раскатки.
V7 "очень всприпозднилась", в основном потому, что в ней переработаны почти все части системы.
В будущем ожидаются следующие расширения: Draft modes, large-batch modes, and specialized offshoots that vary in speed and quality. offshoots - это ответвления, форки, приподверсии.
Про видео-модель опять туман.
В процессе тестирования находятся несколько потенциальных решений, в том числе:
- Собственная модель видео.
- Возможное партнерство с внешними моделями.
- Исследование решений с открытым исходным кодом(!!!, шта?).
(похоже ребята в тупике)
Ключевые задачи:
- Сделать работу с видео "увлекательной" и не требующей чрезмерных затрат времени или средств.
- Баланс между скоростью, стоимостью и качеством вывода.
В прошлом году они писали, что видео-модель - это будет 2.5D модель, которая позволяет "заглядывать" в картинку с разных ракурсов, типа игрового движка на минималках.
Батч-режим:
- Пользователи просматривают большие наборы изображений, отмечая, что им нравится, а что нет.
Fast режим:
- почти реалтайм.
Батч плюс fast - быстрое дообучение на предпочтениях пользователя.
Мудборды:
- Combining mood boards with S-Ref (style/reference) or “character reference” capabilities.
Планируется подтолкнуть к персонализации пользователей, которые еще не пробовали ее, поскольку отзывы показывают: - Около 85% людей предпочитают изображения, созданные с помощью персонализации.
- В настоящее время основное внимание уделяется ускорению процесса персонализации, а не его усложнению.
Есть у меня ощущение, что все это я уже видел в прошлом году в опенсорсе. Но пользователи Midjourney - они как пользователи айфонов, будут колоться, плакать и ждать кактусы.
И API.
@cgevent
Comfy2Gradio
А вот это уже очень интересный туториал-инструкция.
Что он делает:
1. Берет ComfyUI workflow и превращает его в некий питоновский код.
2. Потом берет этот питоновский код и превращает его в другой питоновский код - в web-морду Gradio, со всеми слайдерами и и чекбоксами. То есть в нормальный UI.
3. Далее вам расскажут, как засунуть и запустить это Gradio-приложение на Hugging Face Spaces with ZeroGPU. Ну то есть захостить в облаке (типа бесплатно до какого-то лимита использования GPU)
4. Вы получите просто url на котором крутится ваше приложение с кнопочками и ползунками, вместо лапши и лапши.
Обещают однокнопочный процесс, но есть момент. И момент родовой: вы должны знать как to grab a ComfyUI workflow and run it on your machine, installing missing nodes and finding the missing models (we do plan to automate this step soon though)
Ну то есть взять чей вокфлоу и превратить его в нормальный UI не получится. Надо установить Комфи, загнать туда этот воркфлоу, посмотреть на красное аддище из missing nodes, понажимать кнопок, поустанавиливать гитхаба и когда все заведется, переходить у туториалу.
Но идея ОЧЕНЬ правильная. Если они смогут автоматизировать борьбу с кошмаром отсутствующих нод(версий, конфликтов) и деплой на HF, то может получиться прорыв в обмене сценами из ComfyUI.
Я ставил SwarmUI как UI-нашлепку над Комфи, но это настолько уродливо, неудобно и криво сделано, что сразу снес. Кроме того, там нет наследования параметров из кастомных нод от того же Kijai, разработчик медленно добавляет все модели и форки вручную.
Я бы подождал автоматизации и развития этого проекта:
https://huggingface.co/blog/run-comfyui-workflows-on-spaces
@cgevent
А вот это уже очень интересный туториал-инструкция.
Что он делает:
1. Берет ComfyUI workflow и превращает его в некий питоновский код.
2. Потом берет этот питоновский код и превращает его в другой питоновский код - в web-морду Gradio, со всеми слайдерами и и чекбоксами. То есть в нормальный UI.
3. Далее вам расскажут, как засунуть и запустить это Gradio-приложение на Hugging Face Spaces with ZeroGPU. Ну то есть захостить в облаке (типа бесплатно до какого-то лимита использования GPU)
4. Вы получите просто url на котором крутится ваше приложение с кнопочками и ползунками, вместо лапши и лапши.
Обещают однокнопочный процесс, но есть момент. И момент родовой: вы должны знать как to grab a ComfyUI workflow and run it on your machine, installing missing nodes and finding the missing models (we do plan to automate this step soon though)
Ну то есть взять чей вокфлоу и превратить его в нормальный UI не получится. Надо установить Комфи, загнать туда этот воркфлоу, посмотреть на красное аддище из missing nodes, понажимать кнопок, поустанавиливать гитхаба и когда все заведется, переходить у туториалу.
Но идея ОЧЕНЬ правильная. Если они смогут автоматизировать борьбу с кошмаром отсутствующих нод(версий, конфликтов) и деплой на HF, то может получиться прорыв в обмене сценами из ComfyUI.
Я ставил SwarmUI как UI-нашлепку над Комфи, но это настолько уродливо, неудобно и криво сделано, что сразу снес. Кроме того, там нет наследования параметров из кастомных нод от того же Kijai, разработчик медленно добавляет все модели и форки вручную.
Я бы подождал автоматизации и развития этого проекта:
https://huggingface.co/blog/run-comfyui-workflows-on-spaces
@cgevent
AI Meme Arena
Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.
Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.
Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.
Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/
Самое смешное, что никакой регистрации, подписок на канал и прочая.
Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются
Дальше - больше.
Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.
Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.
Пойду напишу Вове Закоулову, ибо это прекрасно.
А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.
Повеселимсо.
У меня вот такой свеженький про chatGPT Tasks сгенерилсо.
@cgevent
Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.
Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.
Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.
Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/
Самое смешное, что никакой регистрации, подписок на канал и прочая.
Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются
Дальше - больше.
Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.
Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.
Пойду напишу Вове Закоулову, ибо это прекрасно.
А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.
Повеселимсо.
У меня вот такой свеженький про chatGPT Tasks сгенерилсо.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Позавчера писал про новую модель Ray2 от Luma Labs - сегодня ее выпустили из беты в народ с платными подписками.
Вместо демо-роликов принес вам довольно впечатляющий пример от @davincisdigital.
Мне кажется куски Ходячих мертвецов или второй сезон Last of US можно "подснимать" в Луме. Не говоря уже про синематики к определенного класса играм.
Похоже, что есть прогресс анимации, то есть в движениях, как объектов, так и камеры. Вопрос управляемости.
И прежде чем расчехлять ляполовы, вспомните, где мы были полтора года назад. И где мы сейчас.
Куда катится мир?
@cgevent
Вместо демо-роликов принес вам довольно впечатляющий пример от @davincisdigital.
Мне кажется куски Ходячих мертвецов или второй сезон Last of US можно "подснимать" в Луме. Не говоря уже про синематики к определенного класса играм.
Похоже, что есть прогресс анимации, то есть в движениях, как объектов, так и камеры. Вопрос управляемости.
И прежде чем расчехлять ляполовы, вспомните, где мы были полтора года назад. И где мы сейчас.
Куда катится мир?
@cgevent
Метаверсище и ИИще
Позавчера писал про новую модель Ray2 от Luma Labs - сегодня ее выпустили из беты в народ с платными подписками. Вместо демо-роликов принес вам довольно впечатляющий пример от @davincisdigital. Мне кажется куски Ходячих мертвецов или второй сезон Last of…
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Сорри, но я снова про видеогенераторы, ибо они все взбесились.
VIDU 2 хвастается новыми фишками:
- Ускоренное создание видео: Видео создается всего за 10 секунд.
- Повышенная согласованность: От первого до последнего кадра
- Низкая цена: Всего 0,7 цента за секунду (хмм)
- Внимание: в непиковом режиме неограниченное количество бесплатных генерация в непиковые часы.
Правда как попасть в непиковые часы непонятно.
И снова я вам принес не демо ролик из их твиттора, а аниме-пример.
Я не большой эксперт в аниме, но похоже совместимость персонажа там достигается попроще (главное глазищщи и подбородок) и снова подумалось, что вот эти вот филеры в аниме уже можно заполнять генеративом. А уж с такой музикой Suno точно справится.
В общем раньше бывало "а облака возьмем со стоков". А теперь: "аниме путешествие за город сгенерим в Vidu"
P.S. У них там еще конкурс на 5000 баксов
@cgevent
VIDU 2 хвастается новыми фишками:
- Ускоренное создание видео: Видео создается всего за 10 секунд.
- Повышенная согласованность: От первого до последнего кадра
- Низкая цена: Всего 0,7 цента за секунду (хмм)
- Внимание: в непиковом режиме неограниченное количество бесплатных генерация в непиковые часы.
Правда как попасть в непиковые часы непонятно.
И снова я вам принес не демо ролик из их твиттора, а аниме-пример.
Я не большой эксперт в аниме, но похоже совместимость персонажа там достигается попроще (главное глазищщи и подбородок) и снова подумалось, что вот эти вот филеры в аниме уже можно заполнять генеративом. А уж с такой музикой Suno точно справится.
В общем раньше бывало "а облака возьмем со стоков". А теперь: "аниме путешествие за город сгенерим в Vidu"
P.S. У них там еще конкурс на 5000 баксов
@cgevent
Интересная история с Kinetix, который вдруг приподвзвирусился в телеге.
Они начинали еще в 2022 году как AI-assisted 3D animation platform под знаменами Метаверса и NFT.
В прошлом году они делали довольно кринжовый AI Emote Creator(на втором видео), где юзеры генерили вот эти вот все .. жесты.
Но в сентябре Kinetix объявила о создании фонда в размере $1 млн для поддержки разработчиков игр, сочетающих генеративный искусственный интеллект и пользовательский контент.
А в январе пивотнулись в довольно банальный Video2Video генератор - описываете сцену промптом, а движения персонажа берутся из видео, которое вы загрузите дополнительно.
Главная фишка - video2video берется именно с персонажа.
У них также есть огромный датасет из мокапных движений, что, по идее, позволяет им "допиливать" движения до годного.
По идее им надо вводить стили на движения и управление весами этих стилей.
Поглядим, когда из беты выйдут.
https://www.kinetix.tech/character-motion-control-for-video-generation-models
@cgevent
Они начинали еще в 2022 году как AI-assisted 3D animation platform под знаменами Метаверса и NFT.
В прошлом году они делали довольно кринжовый AI Emote Creator(на втором видео), где юзеры генерили вот эти вот все .. жесты.
Но в сентябре Kinetix объявила о создании фонда в размере $1 млн для поддержки разработчиков игр, сочетающих генеративный искусственный интеллект и пользовательский контент.
А в январе пивотнулись в довольно банальный Video2Video генератор - описываете сцену промптом, а движения персонажа берутся из видео, которое вы загрузите дополнительно.
Главная фишка - video2video берется именно с персонажа.
У них также есть огромный датасет из мокапных движений, что, по идее, позволяет им "допиливать" движения до годного.
По идее им надо вводить стили на движения и управление весами этих стилей.
Поглядим, когда из беты выйдут.
https://www.kinetix.tech/character-motion-control-for-video-generation-models
@cgevent
Кому-то может быть полезно - бесплатный курс по AI AGENTS от HuggingFace.
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
@cgevent
https://huggingface.us17.list-manage.com/subscribe?u=7f57e683fa28b51bfc493d048&id=9ed45a3ef6
@cgevent
Вчера постил про @AIMemeArenaBot.
Подписчики не подвели, держите пачку ИИ-мемов.
Более того, я связался с автором безобразия и завтра мы устроим эпический баттл в реальном времени на Хабе в Пафосе.
Кто на Кипре, заходите, вот уже где скучно не будет!
https://www.group-telegram.com/hub_cy/2029
@cgevent
Подписчики не подвели, держите пачку ИИ-мемов.
Более того, я связался с автором безобразия и завтра мы устроим эпический баттл в реальном времени на Хабе в Пафосе.
Кто на Кипре, заходите, вот уже где скучно не будет!
https://www.group-telegram.com/hub_cy/2029
@cgevent