Telegram Group Search
Forwarded from Denis Sexy IT 🤖
Выкатили на всех нашу WorldModel Colorization V1, как она работает я напишу чуть позже, но вот пара советов:

— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные

— WorldModel Colorization V1 настолько мелкие детали иногда красит, что способна убрать эффект красных фото — который очень тяжело чинится

— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты

— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)

— Платная фича: за раз можно покрасить 100 фотографий

— Бесплатно генерируется с вотермаркой и лимитами

Планы:

— Через какое-то время можно будет промптом указать какие цвета лучше использовать

— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать

Хорошего time-traveling, путник!

Ссылка:
https://neural.love/photo-colorization
Forwarded from Сиолошная
Прошло полтора месяца с анонса o1 от OpenAI, и вот сегодня китайцы из DeepSeek удивляют первым конкурентом. Я бы не подумал, что среди компаний уровня Google - META - Anthropic - AliBaba именно они смогут первыми удивить релизом.

Они представили модель DeepSeek-R1-Lite-Preview, но к сожалению без деталей касательно обучения и сбора данных. Модель пока доступна в онлайн-чате, зато видны все рассуждения, а не только краткая выжимка — однако обещают, что и веса LLM-ки, и API для неё опубликуют скоро.

На первой картинке — результаты бенчмарков, на задачах с AIME модель обходит o1-preview (но полноценная o1, со слов OpenAI, выдаёт 74.4). На LiveCodeBench (задачи на LeetCode, добавленные с августа 2024-го, то есть «новые», хоть похожие на них наверняка были в интернете до этого) тоже прирост относительно других моделей очень ощутимый.

На второй картинке — результаты масштабирования процесса размышлений R1 (с точки зрения процента решённых на AIME задач):
— Pass — это результат модели, если делать одно предсказание на задачу и его сверять с ответом. В данном случае масштабируется длина единственной цепочки рассуждений, чем больше — тем выше качество
— Majority Voting это дополнительная техника для улучшения качества за счёт генерации нескольких независимых цепочек рассуждений с последующим выбором ответа через взятие самого часто встречающегося предсказания (грубо говоря голосование)

Обратите внимание на значения на горизонтальной оси, самые правые точки — результат аггрегации цепочек рассуждений общей длины более 100'000 токенов.

На третьей картинке я задал LLM-ке задачку с олимпиады 4-го класса, ответ правильный (решение не проверял, чат тут). Вы можете потестировать модель сами тут:

https://chat.deepseek.com/

Можно авторизоваться через Google аккаунт. Доступно 50 запросов в день.

🇨🇳 Китай вперёёёд 🇨🇳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
LTX-Video - OpenSource модель для генерации видео.

Модель генерирует короткие ролики в разрешении 1280x720 с частотой 24 кадра в секунду.
По моим замерам, по умолчанию для работы требуется около 30 гигабайт видеопамяти, но путем оптимизаций можно попробовать поработать и на картах среднего сегмента, за счет выгрузки данный в оперативную память.

Из возможностей - генерация по тексту, генерация по изображению.

Код модели, как и веса доступны для скачивания:

Github
Веса / Чекпоинт
WorkFlow для Comfy UI

К слову, работаю над портативкой с UI и как раз с оптимизациями для памяти, выложу в ближайшие дни.

#LTXV #aivideo #txt2video #img2video
Neurogen
LTX-Video - OpenSource модель для генерации видео. Модель генерирует короткие ролики в разрешении 1280x720 с частотой 24 кадра в секунду. По моим замерам, по умолчанию для работы требуется около 30 гигабайт видеопамяти, но путем оптимизаций можно попробовать…
Честно говоря не уверен что имеет смысл делать Portable, так как генерация ролика идет на RTX 4090 около полутора часов. Возможно, когда в будущем добавят дополнительные оптимизации, это и можно будет сделать, но пока проще завести это чудо через Сomfy UI.

Но оказывается есть демка, поэтому можете потестить LTXV тут: https://huggingface.co/spaces/Lightricks/LTX-Video-Playground
NeuroIMG.ART - Персональная галерея пользователя

Вы просили - мы сделали. Теперь у каждого пользователя есть Персональная галерея сгенерированных изображений.

У каждого изображения сохраняется позитивные и негативные промпты так ряд других основных параметров.

Обратите внимание, что в целях оптимизации нагрузки на наш сервер, хранятся лишь последние 50 изображений.

#neuroimg #txt2img #img2img
QwQ-32B-Preview : o1-подобная модель из семейства Qwen

Данная модель отличается от базовых моделей Qwen, и является "рассуждающей" моделью.

В целом, по данным тестов, она обходит Qwen2.5-72B, и даже, местами, o1-mini от OpenAI.

Самое главное, что файлы модели уже доступны для загрузки, в том числе, и квантованные варианты.

Протестировать работу онлайн можно тут:

Демо QwQ-32B-preview

Квантованные GGUF версии можно скачать тут:

QwQ-32B-Preview-GGUF

Для работы с моделью с Q4 квантованием, потребуется минимум 20 гигабайт видео или оперативной памяти.

#qwen #o1 #llm
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz
Главные события в мире ИИ: обновления от OpenAI, X и Meta*

OpenAI представляет ChatGPT Pro
OpenAI анонсировала новый тарифный план ChatGPT Pro стоимостью 200 долларов в месяц. Он предназначен для исследователей, инженеров и других профессионалов, которые ежедневно используют продвинутые ИИ-модели. Тариф включает:

неограниченный доступ к самым мощным моделям OpenAI, таким как o1, o1-mini, GPT-4o и Advanced Voice;
эксклюзивный режим o1 Pro Mode, использующий повышенные вычислительные мощности для более глубокого анализа и предоставления высококачественных решений сложных задач.
Экспертные оценки показали, что режим o1 Pro значительно превосходит предыдущие версии моделей в таких областях, как решение математических задач, программирование и анализ юридических данных. Пользователи ChatGPT Pro смогут активировать этот режим, выбрав его в меню моделей и задав запрос в чате.

X делает Grok бесплатным для всех пользователей
Компания X (ранее Twitter) сделала свой AI-чатбот Grok доступным для всех пользователей без необходимости подписки на X Premium. Основные возможности:

10 бесплатных запросов каждые 2 часа;
генерация 10 изображений каждые 2 часа;
возможность анализировать до 3 изображений в день (дополнительный анализ доступен только по подписке).
Это нововведение направлено на популяризацию использования искусственного интеллекта среди широкой аудитории.

Meta выпускает Llama 3.3
Компания Meta объявила о выпуске Llama 3.3 — новой открытой многоязычной модели искусственного интеллекта (LLM). Новая версия включает:

70 миллиардов параметров, что обеспечивает производительность, сравнимую с моделью Llama 3.1 с 405 миллиардами параметров,
при этом снижая затраты на вычисления и ресурсы.
Эти обновления подтверждают стремление крупнейших технологических компаний сделать ИИ более доступным и эффективным, открывая новые горизонты для разработчиков и пользователей по всему миру.

#llm #chatgpt #groq #llama

*Meta - террористическая организация, запрещённая на территории РФ.
OpenAI представила Sora Turbo — мощную модель для генерации видео

Компания OpenAI объявила о запуске Sora Turbo, модели для генерации видео на основе текста. Новый инструмент позволяет создавать видеоролики в разрешении до 1080p и продолжительностью до 20 секунд. Пользователи могут использовать текстовые описания, изображения и видео, а также настроить отдельные кадры через специальный интерфейс.

Модель доступна подписчикам ChatGPT Plus и Pro.

Для подписчиков Plus доступно 20 генераций в месяц, для уровня Pro - без ограничений.

Из ограничений, модель недоступна в странах, где официально не работает ChatGPT, а также в странах ЕС и Великобритании из-за нюансов в законодательстве.

Начать работать с SORA можно тут.

#sora #txt2video #ainews
2025/01/10 10:54:38
Back to Top
HTML Embed Code: