Telegram Group Search
Луч-2 от Люмы

Пока Клинг и Рунвей сыплют апдейтами, давно ничего не было слышно от Люмы.

Тем временем бетатестеры вовсю хвастаюцца в твитторе результатами работы новой модели Ray2 от Luma Labs.
О ней начали писать еще 4 декабря.
Я собрал немного утечек.

Ray-2 поддерживает разрешение 1080p и видео длительностью до 20 секунд. Эта модель создана на основе своей предшественницы, Ray-1 (также известной как Dream Machine 1.6), и в настоящее время доступна для избранных бетатестеров. Предполагается, что более широкий запуск состоится уже на следующей неделе, хотя официально это не подтверждено.

В Твитторе самой Люмы только тизер "Are you ready?"

Я подсобрал результатов из твиттора: на мой вкус очень хороша работа с физикой, а вот с анатомией, традиционно у Люмы, не очень.

Но барашек Шон аутентичный.

Хотите больше, вкиньте тег #Ray2 в твиттор

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Rokoko, тьфу, Kokoro.

Новая опенсорсная Text-To-Speech модель, от которой твиттор плачет кипятком.

Маленькая, 82М параметров, веса 327 Мb.

Быстрая - пример в шапке на 2 мин 25 сек создан за 4.5 секунды на T4.
На Маке 10 секунд генерятся 2 секунды.

Веса и прочий фарш тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Демо есть тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

@cgevent
Сначала мы выпивали за джунов. Пришла очередь миддлов.

Если вкратце, то Цукерберг считает, что в 2025 году системы искусственного интеллекта в Meta и других компаниях будут способны писать код, как mid-level engineers. Сначала это будет дорого, но со временем системы станут более эффективными. В конечном итоге AI engineers будут создавать большую часть кода и искусственного интеллекта в приложениях, заменив инженеров-людей.

Подробнее тут: https://x.com/slow_developer/status/1877798620692422835

Совсем подробнее тут: https://www.youtube.com/watch?v=USBW0ESLEK0

Текстом и с деталями: https://tribune.com.pk/story/2521499/zuckerberg-announces-meta-plans-to-replace-mid-level-engineers-with-ais-this-year

У меня пока все.

@cgevent
LudusDemo05111080p-BTgbrmfZ.webm
18.8 MB
Ого, кто-то прикрутил ИИ к Unreal Engine.

Создание ассетов и сцен промптами.
Редактирование сцен промптами.
Blueprint assistant с рекомендациями, оптимизациями и даже natural language graph creation

Ludus.Blueprint is our AI-powered Blueprint assistant that helps with node suggestions, optimization recommendations, and natural language graph creation. Ludus.Chat enables text-to-scene conversion, allowing you to create and modify scenes using natural language commands.

На бесплатном плане только чат с документацией.

Enterprise customers get additional access to project-specific customizations and self-hosted solutions.

А еще у них планируется ассистент кода - Allow AI do the heavy lifting in your code development with our AI finetuned for Unreal Engine's C++ standard. Project-aware code generation, autocomplete, and multi-file editing. Available as an in-engine plugin and in your favorite IDE!

На первый взгляд выглядит как Cursor для UE5. Ну или UE для чайников.

Но никаких подробностей про LLM внутри я не нашел (Умные подписчики быстро пронюхали, что внутри Антропик и Дипсик)

Странный проект.

https://ludusengine.com/

@cgevent
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Вот это СМЕКАЛОЧКА!

Из-за того, что Открытый чемпионат Австралии по теннису не владеет всеми правами на трансляцию в ютуб, организаторы нашли оригинальное решение. Они используют технологию, которая в реальном времени отслеживает движения игроков и мяча на корте, а после создают анимированную версию матчей, напоминающую стиль игры Wii Sports и уже ее пускают в эфир.

тут можно почитать подробнее
chatGPT c обратной связью.

В chatGPT завозят Tasks. Если раньше он только отвечал на ваши запросы, то теперь сможет сам инициировать диалог.

Функция, которая с сегодняшнего дня распространяется на подписчиков Plus, Team и Pro, - это попытка превратить чатбота в нечто более близкое к традиционному цифровому помощнику - вспомните Google Assistant или Siri, но с более продвинутыми языковыми возможностями ChatGPT.

Tasks работают, позволяя пользователям сообщать ChatGPT, что им нужно и когда это нужно сделать. Хотите получать ежедневный прогноз погоды в 7 утра? Напоминание об истечении срока действия паспорта? А может, просто рассказать детям перед сном cказку от chatGPT? Теперь ChatGPT может выполнять все эти задачи по расписанию, как разовые, так и повторяющиеся.

https://www.theverge.com/2025/1/14/24343528/openai-chatgpt-repeating-tasks-agent-ai

@cgevent
🚀 Запускаем интенсив по ИИ-ассистентам — научим создавать персональных помощников за 3 дня!

2025 — это время новых возможностей. Уже знаете, как общаться с ChatGPT и генерировать крутые картинки в Dall-E? Теперь пора вывести свои навыки на новый уровень и начать зарабатывать на этом.

🤖 Что вы сделаете за 3 дня:

• Разберетесь, как ИИ становится не просто помощником, а настоящим бизнес-инструментом.
• Научитесь создавать собственные GPT для автоматизации рутинных задач (регламенты, планы, стратегии).
• Запустите контент-мейкера на основе Claude, который будет работать за вас.
• Соберете универсального продавца на nocode-платформе для создания ИИ-ассистентов, который умеет продавать и закрывать сделки.

💰 Новые возможности заработка в 2025:

• Разработка ИИ-ассистента — это услуга, за которую можно брать $250 и больше.
• Автоматизация задач для бизнеса — тренд, который востребован как никогда.

🔥 Бонусы:

• Видеоурок по автоматизации в Make
• Скидка 50% на использование платформы для создания GPT-ассистентов
• Розыгрыш персонального разбора для участников

Почему это важно:
ИИ не просто изменил игру — он создал новую. И если вы уже знаете, как работает ChatGPT или Dall-E, теперь время научиться монетизировать эти знания!

👉Регистрация тут https://clck.ru/3Fk6Gh

#промо
Media is too big
VIEW IN TELEGRAM
Рубрика, крутые подписчики.

Ambition AI решили провести эксперимент для самого креативного бренда в мире сейчас, Liquid Death, сделав рекламу в их стиле.

Записали актёра на айфон, смонтировали базовый материал.

Затем вытащили из монтажа ключевые кадры и доработали их через Flux Tools с ретушью. С помощью Comfy нам удалось сделать так, чтобы наша “бабка” выглядела одинаково на всех кадрах, включая одежду, причём использовали всего один референс. То же самое проделали с окружением и креслом. Flux fill и Redux позволили картинку сделать одинаковой.

Анимации между изображениями пробрасывали через Kling и Minimax, а переходы — с помощью Sora.

Весь проект длился 2 недели. Вели проект @aleksejlotkov и @nodia_art

Как по мне, очень крепко сделано. Хороший монтаж, динамика и попадание в аудио.
Сильно отличается от большинства генераций именно постобработкой и опытом монтажа и композа.
Мне, как человеку из поста, немного режет глаз анимация и пластиковый лук, но с этим пока ничего нельзя сделать - вся анимация - с башке у моделей. Придет время и появятся стилевые лоры для анимации: под Дисней, под реальную физику, под Аардман, на двоечках.

А пока бабки отжигают очень задорно.

@cgevent
Forwarded from Data Secrets
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Был когда-то такой генератор картинок - Midjourney.

Так вот, он еще жив.

Держите последних новостей.

Midjourney V7 будет представлять собой полную переработку V6, включая:

- новую архитектуру, новые датасеты(!) и пересмотренные(revised,?!) подходы к обработке языка\промптов.
- улучшенное понимание промптов(наконец-то), согласованность и гибкая стилизация.

Возможные сроки: от недели до месяца на тестирование, плюс двухнедельная фаза окончательной раскатки.

V7 "очень всприпозднилась", в основном потому, что в ней переработаны почти все части системы.

В будущем ожидаются следующие расширения: Draft modes, large-batch modes, and specialized offshoots that vary in speed and quality. offshoots - это ответвления, форки, приподверсии.

Про видео-модель опять туман.
В процессе тестирования находятся несколько потенциальных решений, в том числе:
- Собственная модель видео.
- Возможное партнерство с внешними моделями.
- Исследование решений с открытым исходным кодом(!!!, шта?).

(похоже ребята в тупике)

Ключевые задачи:
- Сделать работу с видео "увлекательной" и не требующей чрезмерных затрат времени или средств.
- Баланс между скоростью, стоимостью и качеством вывода.

В прошлом году они писали, что видео-модель - это будет 2.5D модель, которая позволяет "заглядывать" в картинку с разных ракурсов, типа игрового движка на минималках.

Батч-режим:

- Пользователи просматривают большие наборы изображений, отмечая, что им нравится, а что нет.

Fast режим:
- почти реалтайм.

Батч плюс fast - быстрое дообучение на предпочтениях пользователя.

Мудборды:
- Combining mood boards with S-Ref (style/reference) or “character reference” capabilities.

Планируется подтолкнуть к персонализации пользователей, которые еще не пробовали ее, поскольку отзывы показывают: - Около 85% людей предпочитают изображения, созданные с помощью персонализации.
- В настоящее время основное внимание уделяется ускорению процесса персонализации, а не его усложнению.

Есть у меня ощущение, что все это я уже видел в прошлом году в опенсорсе. Но пользователи Midjourney - они как пользователи айфонов, будут колоться, плакать и ждать кактусы.

И API.

@cgevent
Comfy2Gradio

А вот это уже очень интересный туториал-инструкция.

Что он делает:

1. Берет ComfyUI workflow и превращает его в некий питоновский код.
2. Потом берет этот питоновский код и превращает его в другой питоновский код - в web-морду Gradio, со всеми слайдерами и и чекбоксами. То есть в нормальный UI.
3. Далее вам расскажут, как засунуть и запустить это Gradio-приложение на Hugging Face Spaces with ZeroGPU. Ну то есть захостить в облаке (типа бесплатно до какого-то лимита использования GPU)
4. Вы получите просто url на котором крутится ваше приложение с кнопочками и ползунками, вместо лапши и лапши.

Обещают однокнопочный процесс, но есть момент. И момент родовой: вы должны знать как to grab a ComfyUI workflow and run it on your machine, installing missing nodes and finding the missing models (we do plan to automate this step soon though)

Ну то есть взять чей вокфлоу и превратить его в нормальный UI не получится. Надо установить Комфи, загнать туда этот воркфлоу, посмотреть на красное аддище из missing nodes, понажимать кнопок, поустанавиливать гитхаба и когда все заведется, переходить у туториалу.

Но идея ОЧЕНЬ правильная. Если они смогут автоматизировать борьбу с кошмаром отсутствующих нод(версий, конфликтов) и деплой на HF, то может получиться прорыв в обмене сценами из ComfyUI.

Я ставил SwarmUI как UI-нашлепку над Комфи, но это настолько уродливо, неудобно и криво сделано, что сразу снес. Кроме того, там нет наследования параметров из кастомных нод от того же Kijai, разработчик медленно добавляет все модели и форки вручную.

Я бы подождал автоматизации и развития этого проекта:
https://huggingface.co/blog/run-comfyui-workflows-on-spaces

@cgevent
AI Meme Arena

Прокачка ИИ-чувства юмора. Впрочем не только ИИ, но и кожаного.

Принес вам серьезное залипалово на несерьезную тему. Сижу второй час. Генерю мемы.
Вот тут: @AIMemeArenaBot - это прямо полный аналог lmsys’овской Chatbot Arena, из которой вырастает объективный лидерборд для оценки остроумия AI-агентов.
Больше даже похоже на лидерборд для картинок, ибо результат оцениваешь "нутром", а не мозгом.

Иногда результаты полный треш, но иногда выходит такой мем, что твои кожаные мозги начинают нагреваться - это смешно, но ты не можешь объяснить почему. Я совершенно заворожен этим экспериментом. Сдается мне все стендаперы (особенно любители парадоксальных шуток сейчас ломанутся туда).
Процесс напоминает ранние генерации в Stable Diffusion 1.5 - много мусора и кривой анатомии, а потом бац и шедевр, надо только прокликать "еще мемов". В принципе с ранними чатботами было также же, поток галлюцинаций вперемешку с нормальными ответами. С фонами тоже есть проблемы, но, я так понимаю, датасет растет.

Процесс до тупости прост, задаешь тему
- отправляешь контекстный промпт (например, "Айфон тырит фичи у андроида");
- Два рандомных AI-агента Арены его получают;
- Каждый генерит свой мем;
- Голосуете за более остроумный и релевантный;
- На основе множества таких баттлов(кликов "давай еще") строится Leaderboard, который уже работает тут: https://aimemearena.vercel.app/

Самое смешное, что никакой регистрации, подписок на канал и прочая.

Сейчас Арена работает только на русскоязычных AI-энтузиастов, но авторы вероятно скоро сделают глобальную версию
- когда сделают, есть шанс, что эта штука поможет ускорить эволюцию остроумия и ЧЮ у AI-агентов и LLM-ок и мы выпьем за кожаных Петросянов
- в качестве контекстных промптов можно попробовать новостные заголовки, посты в Телеграме, абзацы из статьи и т.д.
- чем шире описан контекст, тем релевантнее и глубже мемы получаются

Дальше - больше.

Оказалось, что там не только боты от авторов @AIMemeArenaBot, а любой желающий может наваять своего ИИ-стендапера и выпустить его на арену - для этого есть Chаllenge: https://aimemearena.vercel.app/challenge
У кого получится хороший рейтинг на арене, еще и компьют компенсируют.

Я полез искать авторов, которые пишут что их миссия is Making AI Funny As Fuck и и оказалось, что они как-то связаны с FUNCORP.

Пойду напишу Вове Закоулову, ибо это прекрасно.

А пока позалипайте тут @AIMemeArenaBot и присылайте лютые шедевры и такой же треш в коментарии.

Повеселимсо.

У меня вот такой свеженький про chatGPT Tasks сгенерилсо.

@cgevent
2025/01/16 04:01:14
Back to Top
HTML Embed Code: