This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Runway: обновили Act One, инструмент для переложения своей лицевой анимации с липсинком на визуал. Раньше оно работало с картинками, а теперь пашет и с видео.
Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.
По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.
В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.
Дальше будет только лучше.
PS: в гайде кстати сказано, что только людей можно анимировать.
Твит
Сайт
Гайд
Можно менять слова сказанные персонажем, сделать дубль более экспрессивным без пересъёмок, или на препродакшене потестить что работает, а что нет. Причём можно и песни кормить, на вокал тоже реагирует.
По примерам видно, что чем ближе к камере персонаж в кадре, и чем менее он подвижен, тем лучше результат получается. Если нужно "ре-анимировать" чью-то экспрессивную актёрскую игру с новыми словами, то придётся повторить движения героя в кадре, иначе будет рассинхрон.
В отличие от DeepfaceLab или FaceFusion это работает с животными и мультипликацией, и чувствуется что анимация идёт изнутри лица, а не поверх. Хотя в каких-то случаях ими тоже можно достичь похожего результата.
Дальше будет только лучше.
PS: в гайде кстати сказано, что только людей можно анимировать.
Твит
Сайт
Гайд
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Принёс вам красивого ❤️
Дайджест:
📹 ВИДЕО + АРТ 🎨
Comfy: в версии v 0.3.10 появилась возможность запускать видеогенератор Хуньянь на видюхах с 8 ГБ VRAM благодаря темпоральному тайлингу. Хотя я пока вижу на свих тестах 16+ ГБ. Ранее Хуньянь обзавёлся FP8 версией и официальным комфи. Также добавлена поддержка генератора картинок PixArt.
Diffusers: в v 0.32 добавлена поддержка 4 новых видео моделей (Mochi-1, Allegro, LTX, Хуньянь), пайплайнов для Flux Tools, SD 3.5 и Sana, квантизаций в GGUF и TorchAO, а также тренировочных скриптов.
Zluda: CUDA для карт AMD позволяет стабильно гонять веб-интерфейс SD Forge.
Рейтресинг на WebGPU.
Kling: выпустили Kling v 1.6. Улучшилось качество видео и его динамика. В v 1.5 добавили контроль через указание последнего кадра в img-2-video (режим профи). Также обновили генератор картинок Kolors до v 1.5, улучшив эстетичность, работу с цветами и промтом. Плюс для липсинка теперь доступен выбор эмоций и два новых голоса. И да, виртуальную примерочную AI Virtual Try-On переименовали в AI Outfit.
Runway: запустили Talent Network, где авторы, использующие AI для создания видео, могут найти заказчиков. Похожая инициатива есть у Kling. Ещё добавили контроль генерации через промежуточный кейфрейм.
Google: показали видеогенератор Veo 2, который выдаёт хорошиечеррипики результаты в 4К и солидно понимает промт. Но неизвестно когда будет доступен глобально и даст ли цензура тебе сгенерить, что ты хочешь. Также обновили генератор картинок Imagen 3, улучшив качество и следование промту, а плюс представили платформу Whisk, своего рода Comfy без лапши, где можно смешивать картинки без промта.
Midjourney: работают над холстом Patchwork для создания нелинейных интерактивных историй (как и Runway), постепенно выкатывают новую инфраструктуру для персонализации, и дают на праздники всем генераций анлим.
OpenAI: выпустили Sora и Sora Turbo (быстрее, но хуже). 50 генераций в месяц владельцам Plus и 500 быстрых генераций тем у кого Pro. С людьми генерить может только в тарифе за $200/мес, и то не факт. Цензура перекручена. Реакция сообщества смешанная: конкуренты в лице Kling, Minimax, итд уже давно догнали, а в чём-то и прегнали Сору.
Pika: выпустили видеогенератор Pika 2.0 с улучшенным качеством, динамикой, и следованием промту. А также фичей Scene Ingredients, позволяющей загружать картинки с людьми, объектами и локациями, для их соединения в одном видео.
LTX: в версии 0.91 генерация видео стала чётче (пример), интегрировали STG для стабильности кадров, уменьшили количество артефактов. Гитхаб
Сравнение актуальных видеогенераторов бок-о-бок: раз + два + три
Recraft: открыли генерацию картинок по API. И добавили реффки: уважьте дядю не хлеба ради. Вам начислится 200 кредитов после того как зарегаетесь с декстопа и сделаете 1 генерацию. Если у вас только мобилка думаю, если переключить мобильный браузер в режим десктопа должно сработать.
Neurogen: вышла руссифицированна версия дипфейкера RopeMod 2.7.1.
Phygital+: добавили ноду Compose для смешивания до 6 картинок за раз, и генерацию видео через Runway. Плюс обновление сайта.
OiO: подписчик @kostebasov сделал бота OiO, через которого можно генерить видосы из Runway в телеге. Промт можно писать на русском, он автоматом переведётся. Есть и улучшение промта с помощью AI. Я потестил, работает гладко.
Domo AI: обновили модели для генерации видео в стиле аниме (v5) и 3D мультика (v4.), и добавили модель на реализм.
PixVerse: ещё один генератор видео. Очень шустр, хорошо следует промту, даже ваяет надписи/текст, но качество не айс. Хотя есть апскейл до 4к.
FastHunyuan: сторонняя лаба сделала дистиллированную FP8 версию Хуньяня, для качественной генерации в 6 шагов, вместо 50 как у оригинала.
Krea: открыли для всех редактор изображений и тренировку на своих картинках для инпейтинга в сцену.
Инструмент для смены разрешения видео, формата кадра, кодека, и некоторых других параметров. Работает локально в браузере.
BRIA Gen Fill: это удалятор фона обзавёлся инпейтингом, который неплохо работает.
📹 ВИДЕО + АРТ 🎨
Comfy: в версии v 0.3.10 появилась возможность запускать видеогенератор Хуньянь на видюхах с 8 ГБ VRAM благодаря темпоральному тайлингу. Хотя я пока вижу на свих тестах 16+ ГБ. Ранее Хуньянь обзавёлся FP8 версией и официальным комфи. Также добавлена поддержка генератора картинок PixArt.
Diffusers: в v 0.32 добавлена поддержка 4 новых видео моделей (Mochi-1, Allegro, LTX, Хуньянь), пайплайнов для Flux Tools, SD 3.5 и Sana, квантизаций в GGUF и TorchAO, а также тренировочных скриптов.
Zluda: CUDA для карт AMD позволяет стабильно гонять веб-интерфейс SD Forge.
Рейтресинг на WebGPU.
Kling: выпустили Kling v 1.6. Улучшилось качество видео и его динамика. В v 1.5 добавили контроль через указание последнего кадра в img-2-video (режим профи). Также обновили генератор картинок Kolors до v 1.5, улучшив эстетичность, работу с цветами и промтом. Плюс для липсинка теперь доступен выбор эмоций и два новых голоса. И да, виртуальную примерочную AI Virtual Try-On переименовали в AI Outfit.
Runway: запустили Talent Network, где авторы, использующие AI для создания видео, могут найти заказчиков. Похожая инициатива есть у Kling. Ещё добавили контроль генерации через промежуточный кейфрейм.
Google: показали видеогенератор Veo 2, который выдаёт хорошие
Midjourney: работают над холстом Patchwork для создания нелинейных интерактивных историй (как и Runway), постепенно выкатывают новую инфраструктуру для персонализации, и дают на праздники всем генераций анлим.
OpenAI: выпустили Sora и Sora Turbo (быстрее, но хуже). 50 генераций в месяц владельцам Plus и 500 быстрых генераций тем у кого Pro. С людьми генерить может только в тарифе за $200/мес, и то не факт. Цензура перекручена. Реакция сообщества смешанная: конкуренты в лице Kling, Minimax, итд уже давно догнали, а в чём-то и прегнали Сору.
Pika: выпустили видеогенератор Pika 2.0 с улучшенным качеством, динамикой, и следованием промту. А также фичей Scene Ingredients, позволяющей загружать картинки с людьми, объектами и локациями, для их соединения в одном видео.
LTX: в версии 0.91 генерация видео стала чётче (пример), интегрировали STG для стабильности кадров, уменьшили количество артефактов. Гитхаб
Сравнение актуальных видеогенераторов бок-о-бок: раз + два + три
Recraft: открыли генерацию картинок по API. И добавили реффки: уважьте дядю не хлеба ради. Вам начислится 200 кредитов после того как зарегаетесь с декстопа и сделаете 1 генерацию. Если у вас только мобилка думаю, если переключить мобильный браузер в режим десктопа должно сработать.
Neurogen: вышла руссифицированна версия дипфейкера RopeMod 2.7.1.
Phygital+: добавили ноду Compose для смешивания до 6 картинок за раз, и генерацию видео через Runway. Плюс обновление сайта.
OiO: подписчик @kostebasov сделал бота OiO, через которого можно генерить видосы из Runway в телеге. Промт можно писать на русском, он автоматом переведётся. Есть и улучшение промта с помощью AI. Я потестил, работает гладко.
Domo AI: обновили модели для генерации видео в стиле аниме (v5) и 3D мультика (v4.), и добавили модель на реализм.
PixVerse: ещё один генератор видео. Очень шустр, хорошо следует промту, даже ваяет надписи/текст, но качество не айс. Хотя есть апскейл до 4к.
FastHunyuan: сторонняя лаба сделала дистиллированную FP8 версию Хуньяня, для качественной генерации в 6 шагов, вместо 50 как у оригинала.
Krea: открыли для всех редактор изображений и тренировку на своих картинках для инпейтинга в сцену.
Инструмент для смены разрешения видео, формата кадра, кодека, и некоторых других параметров. Работает локально в браузере.
BRIA Gen Fill: это удалятор фона обзавёлся инпейтингом, который неплохо работает.
Marigold-DC: улучшенный метод получения карт глубины из контента на котором не тренировали, а также когда параметры с большим разбросом.
PSHuman: получение из одного фото человека его 3D меша. Работает на удивление неплохо.
Leffa: виртуальная примерочная с контролем позы. Есть Comfy.
EdgeCape: нахождение опорных точек в позе объекта той же категории.
Генератор картинок в трёхмерном стиле. Объекты на пикчах в основном сразу под углом, так что можно сразу кормить их 3D генераторам.
Tencent: релизнули FreeSplatter, генератор 3D по картинке с выбором модели под капотом (Хуньянь или Zero123++). Ещё запилили BrushEdit, для редактирования изображения текстом в автоматическом или ручном режиме. А также ColorFlow для колоризации манги, комиксов, скетчей итд.
FlowEdit: тоже редактор изображения текстом. Для обработки можно выбирать между SD3 или Flux. Промта слушается хорошо даже без настроек, с флюксом артефактов меньше, результат довольно ловкий.
FireFlow: и это редактор изображения текстом. Автоматом подгоняет изображение под х1024, три метода обработки на выбор, можно качество регулировать шагами и другими крутилками.
NVComposer: генерация новых видов из картинки для контроля камеры в видео или получения 3D объекта. Тоже Tencent, кстати.
Исследование на тему параллелизация генерации визуала. Из похожего, например, AsyncDiff и другие проекты на генерацию в распределенке.
InvSR: апскейлер картинок. Зачастую заметно отсебятничает артефактами в деталях.
ObjCtrl-2.5D: выделение элементов картинки и их анимация по заданной траектории. Двухмерные направляющие конвертируются в 3D используя глубину, а передаются на контроль камеры.
OneDiffusion: новый генератор картинок с персонализацией и другими фичами, но пока нужно 40 ГБ VRAM.
GIMM-VFI: интерполяция видео с генерацией промежуточных кадров. (спс @JohnDoe171)
Material Anything: генератор PBR материалов для 3D объектов обзавёлся скриптами для рендера.
MoGe: получение 3D геометрии объекта или сцены (карта точек /меш) из фото.
GSOPS: плагин для работы со сплатами в Houdini обзавёлся коммерческой лицензией.
Stable-diffusion.cpp: инференс SD и Flux на C/C++.
Samurai: сегментатор Samurai прицепили к Nuke.
TRELLIS: генератор 3D из картинок. Может вытаскивать меш в GLB и в виде сплата.
Genesis: платформа симуляции физики для AI-приложений и робототехники. Участников больше, чем звёзд на небе.
MV-Adapter: генерация разных точек обзора из одной картинки. На удивление юзается SDXL.
Multi-HMR: вытаскивание из картинки позы и 3D меша одного человека или нескольких людей. Работает шустро и весьма неплохо.
Odyssey: показали Explorer, генератор трёхмерных сцен на сплатах для создания детальных видео. Пока пощупать нельзя.
Маркировка видео кодовой фразой. Устойчиво к лёгким изменениям видоса. Демо.
🎸 ЗВУК 🎸
Suno: мобильные апы для Android и iOS вышли и дают десяток халявных кредитов на V4.
Udio: начислили всем халявных кредитов в честь праздников. Они не сгорят и после.
ElevenLabs: релизнули модель Flash для реалтайм разговоров с задержкой 75 мс (у OpenAI где-то 200 мс). Доступно на их платформе для разработчиков.
MMAudio: генерация аудио для беззвучного видео. 6 ГБ VRAM хватит.
Nexa: модель Omni-2.6B может шустро отвечать текстом на голосовые сообщения, и заточена под мобильные устройства. На русском не лопочет.
OuteTTS: генератор речи (TTS) работающий локально в браузере через WebGPU.
PSHuman: получение из одного фото человека его 3D меша. Работает на удивление неплохо.
Leffa: виртуальная примерочная с контролем позы. Есть Comfy.
EdgeCape: нахождение опорных точек в позе объекта той же категории.
Генератор картинок в трёхмерном стиле. Объекты на пикчах в основном сразу под углом, так что можно сразу кормить их 3D генераторам.
Tencent: релизнули FreeSplatter, генератор 3D по картинке с выбором модели под капотом (Хуньянь или Zero123++). Ещё запилили BrushEdit, для редактирования изображения текстом в автоматическом или ручном режиме. А также ColorFlow для колоризации манги, комиксов, скетчей итд.
FlowEdit: тоже редактор изображения текстом. Для обработки можно выбирать между SD3 или Flux. Промта слушается хорошо даже без настроек, с флюксом артефактов меньше, результат довольно ловкий.
FireFlow: и это редактор изображения текстом. Автоматом подгоняет изображение под х1024, три метода обработки на выбор, можно качество регулировать шагами и другими крутилками.
NVComposer: генерация новых видов из картинки для контроля камеры в видео или получения 3D объекта. Тоже Tencent, кстати.
Исследование на тему параллелизация генерации визуала. Из похожего, например, AsyncDiff и другие проекты на генерацию в распределенке.
InvSR: апскейлер картинок. Зачастую заметно отсебятничает артефактами в деталях.
ObjCtrl-2.5D: выделение элементов картинки и их анимация по заданной траектории. Двухмерные направляющие конвертируются в 3D используя глубину, а передаются на контроль камеры.
OneDiffusion: новый генератор картинок с персонализацией и другими фичами, но пока нужно 40 ГБ VRAM.
GIMM-VFI: интерполяция видео с генерацией промежуточных кадров. (спс @JohnDoe171)
Material Anything: генератор PBR материалов для 3D объектов обзавёлся скриптами для рендера.
MoGe: получение 3D геометрии объекта или сцены (карта точек /меш) из фото.
GSOPS: плагин для работы со сплатами в Houdini обзавёлся коммерческой лицензией.
Stable-diffusion.cpp: инференс SD и Flux на C/C++.
Samurai: сегментатор Samurai прицепили к Nuke.
TRELLIS: генератор 3D из картинок. Может вытаскивать меш в GLB и в виде сплата.
Genesis: платформа симуляции физики для AI-приложений и робототехники. Участников больше, чем звёзд на небе.
MV-Adapter: генерация разных точек обзора из одной картинки. На удивление юзается SDXL.
Multi-HMR: вытаскивание из картинки позы и 3D меша одного человека или нескольких людей. Работает шустро и весьма неплохо.
Odyssey: показали Explorer, генератор трёхмерных сцен на сплатах для создания детальных видео. Пока пощупать нельзя.
Маркировка видео кодовой фразой. Устойчиво к лёгким изменениям видоса. Демо.
🎸 ЗВУК 🎸
Suno: мобильные апы для Android и iOS вышли и дают десяток халявных кредитов на V4.
Udio: начислили всем халявных кредитов в честь праздников. Они не сгорят и после.
ElevenLabs: релизнули модель Flash для реалтайм разговоров с задержкой 75 мс (у OpenAI где-то 200 мс). Доступно на их платформе для разработчиков.
MMAudio: генерация аудио для беззвучного видео. 6 ГБ VRAM хватит.
Nexa: модель Omni-2.6B может шустро отвечать текстом на голосовые сообщения, и заточена под мобильные устройства. На русском не лопочет.
OuteTTS: генератор речи (TTS) работающий локально в браузере через WebGPU.
🤖 ЧАТЫ 🤖
DeepSeek: выпустили LLM (языковую модель) DeepSeek V3 с 671B параметров. Показывает себя по многим метрикам лучше других опенсорсных, а также Claude Sonnet и GPT-4o... но весит сотни гигов. Зато обновили V 2.5, она стала лучше в коде, математике и поиске.
TensorRT-LLM: в v 0.16 добавлена поддержка DeepSeek v1, Qwen2-VL, SDXL, и не только.
TensorRT: к v 10.7 добавлена поддержка BF16 и FP8 для пайплайна с Flux Dev и Schnell, а также стриминг весов, и работа в low-vram режиме c 32 ГБ VRAM... в воздухе веет призраком 5090. Хотя какой там призрак, до CES 2025 осталась считай неделя.
Ollama: добавлена поддержка Falcon 3 и ответов структурированных через JSON.
OpenWebUI: появились каналы как в дискорде, для взаимодействия юзеров с ботами; асинхронные чаты, в которых AI будет продолжать генерить в фоновом режиме, пока вкладка не активна; итд.
OpenAI: за 12 дней стримов анонсировали публичный доступ к o1 и o1 Pro за $200/мес, превью o3/o3 mini (бренд o2 занят), поддержку видеострима в голосовом режиме, и другое.
Google: тоже провёл свою презу и представил Gemini 2 Flash, который быстрее предшественника и может помимо текста брать на вход длинные видео + аудио и отвечать по ним голосом, исполнять код, и гуглить. Ещё показали рассуждающую ллм Flash Thinking Experimental как аналог o1. Можно погонять на арене.
X: Илон сделал Grok-2 доступным для всех бесплатно (открывается в боковой панели твиттера по кнопке /). Можно генерить текст и картинки через модель Aurora (сравнение с Flux).
Запрещёнка вышла с ламой 3.3. Только в размере 70B, но говорят выдаёт результаты ламы 3.1 405B. Минимум 26 ГБ VRAM. Ollama плюс хаггинг.
Alibaba: дропнули VLM (визуальную языковую модель) QvQ 72B, превью версию модели с пошаговым мышлением по визуалу. До этого ранее вышла модель чисто по тексту QwQ 32.
Arch: обработчик промтов для AI-агентов. Персонализирует ллм для пользователя, отсеивает джеилбрейки, подрубает вызов функций/RAG, итд.
CrewAI: фреймворк для назначения AI-агентам разных ролей и поручения им заданий. По умолчанию работает с апи OpenAI, но можно подключить локальные ллм.
Replit: их AI-разработчик вышел из раннего доступа и стал доступен публично, но за подписку, минимальная — $25.
InternVL: обновлённый до v 2.5 чат по визуалу в размерах от 1B (смартфоны) до 78B (сервер/рабочая станция). Улучшения в рассуждениях, а также работе с доками и математикой. Лицензия MIT.
Microsoft: дропнули Florence-VL, которая основана на Florence-2, но лучше в работает в формате чата (а не просто распознавания), меньше ловит галлюнов и точнее.
Ещё майки сделали бесплатный тариф Copilot для VS Code с лимитом в 2000 дополнений кода/мес или 50 сообщений к AI. На выбор под капотом GPT-4o или Claude 3.5 Sonnet.
Nvidia: выпустили Jetson Orin Nano, микрокомпьютер для ML задач с 67 TOPS за $249. Похожее — Turing Pi.
Ivy-VL: маленькая моделька (3B) для чата по картинкам и тексту на телефонах и смарт очках.
LG: выпустили ллм EXAONE в размерах от 2.4B до 32B, с фокусом на работе мобильных устройствах и пользовательском железе.
Cohere: сообщество научило модель Aya 8B видеть и отвечать на вопросы по визуалу.
Gradio демка для голосового чата в реалтайме с моделью OpenAI. Нужен их API.
Anthropic: Claude теперь может анализировать крупные эксельки (30 МБ), и фича с анализом работает в мобильной апе.
CogAgent: опенсорсный AI-агент, который может видеть интерфейс пользователя и выполнять задания. Чтобы гонять нужно 29 ГБ VRAM.
TII: выпустили ллм Falcon 3 в размерах от 1B до 10B с контекстом 32К. По сравнению с предыдущей версией модель стала лучше рассуждениях, написании кода и математике.
Apollo: модель, которая может просматривать часовое видео и отвечать по нему.
Подсветка синтаксиса Gradio Lite в VS Code.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
DeepSeek: выпустили LLM (языковую модель) DeepSeek V3 с 671B параметров. Показывает себя по многим метрикам лучше других опенсорсных, а также Claude Sonnet и GPT-4o... но весит сотни гигов. Зато обновили V 2.5, она стала лучше в коде, математике и поиске.
TensorRT-LLM: в v 0.16 добавлена поддержка DeepSeek v1, Qwen2-VL, SDXL, и не только.
TensorRT: к v 10.7 добавлена поддержка BF16 и FP8 для пайплайна с Flux Dev и Schnell, а также стриминг весов, и работа в low-vram режиме c 32 ГБ VRAM... в воздухе веет призраком 5090. Хотя какой там призрак, до CES 2025 осталась считай неделя.
Ollama: добавлена поддержка Falcon 3 и ответов структурированных через JSON.
OpenWebUI: появились каналы как в дискорде, для взаимодействия юзеров с ботами; асинхронные чаты, в которых AI будет продолжать генерить в фоновом режиме, пока вкладка не активна; итд.
OpenAI: за 12 дней стримов анонсировали публичный доступ к o1 и o1 Pro за $200/мес, превью o3/o3 mini (бренд o2 занят), поддержку видеострима в голосовом режиме, и другое.
Google: тоже провёл свою презу и представил Gemini 2 Flash, который быстрее предшественника и может помимо текста брать на вход длинные видео + аудио и отвечать по ним голосом, исполнять код, и гуглить. Ещё показали рассуждающую ллм Flash Thinking Experimental как аналог o1. Можно погонять на арене.
X: Илон сделал Grok-2 доступным для всех бесплатно (открывается в боковой панели твиттера по кнопке /). Можно генерить текст и картинки через модель Aurora (сравнение с Flux).
Запрещёнка вышла с ламой 3.3. Только в размере 70B, но говорят выдаёт результаты ламы 3.1 405B. Минимум 26 ГБ VRAM. Ollama плюс хаггинг.
Alibaba: дропнули VLM (визуальную языковую модель) QvQ 72B, превью версию модели с пошаговым мышлением по визуалу. До этого ранее вышла модель чисто по тексту QwQ 32.
Arch: обработчик промтов для AI-агентов. Персонализирует ллм для пользователя, отсеивает джеилбрейки, подрубает вызов функций/RAG, итд.
CrewAI: фреймворк для назначения AI-агентам разных ролей и поручения им заданий. По умолчанию работает с апи OpenAI, но можно подключить локальные ллм.
Replit: их AI-разработчик вышел из раннего доступа и стал доступен публично, но за подписку, минимальная — $25.
InternVL: обновлённый до v 2.5 чат по визуалу в размерах от 1B (смартфоны) до 78B (сервер/рабочая станция). Улучшения в рассуждениях, а также работе с доками и математикой. Лицензия MIT.
Microsoft: дропнули Florence-VL, которая основана на Florence-2, но лучше в работает в формате чата (а не просто распознавания), меньше ловит галлюнов и точнее.
Ещё майки сделали бесплатный тариф Copilot для VS Code с лимитом в 2000 дополнений кода/мес или 50 сообщений к AI. На выбор под капотом GPT-4o или Claude 3.5 Sonnet.
Nvidia: выпустили Jetson Orin Nano, микрокомпьютер для ML задач с 67 TOPS за $249. Похожее — Turing Pi.
Ivy-VL: маленькая моделька (3B) для чата по картинкам и тексту на телефонах и смарт очках.
LG: выпустили ллм EXAONE в размерах от 2.4B до 32B, с фокусом на работе мобильных устройствах и пользовательском железе.
Cohere: сообщество научило модель Aya 8B видеть и отвечать на вопросы по визуалу.
Gradio демка для голосового чата в реалтайме с моделью OpenAI. Нужен их API.
Anthropic: Claude теперь может анализировать крупные эксельки (30 МБ), и фича с анализом работает в мобильной апе.
CogAgent: опенсорсный AI-агент, который может видеть интерфейс пользователя и выполнять задания. Чтобы гонять нужно 29 ГБ VRAM.
TII: выпустили ллм Falcon 3 в размерах от 1B до 10B с контекстом 32К. По сравнению с предыдущей версией модель стала лучше рассуждениях, написании кода и математике.
Apollo: модель, которая может просматривать часовое видео и отвечать по нему.
Подсветка синтаксиса Gradio Lite в VS Code.
Please open Telegram to view this post
VIEW IN TELEGRAM
Собрал новый комп пару месяцев назад. Теперь дорвался и тестирую подряд все модели, на которые до этого с ноута только облизывался.
При этом он холодны и тихий в отличие от моего ноута, с которым я просидел рядом с 2018 года.
Если интересны характеристики:
Материнка: MEG Z690 ACE
Видюха: 24 ГБ RTX 4090
Проц: i9 12900k
СЖО: EK-Nucleus AIO CR360 Lux D-RGB
Блок питания: 1600 ВТ Cooler Master V 1600 Platinum V2
Оперативка: 128 ГБ DDR5 Kingston Fury Beast
Хранилище: 2 x 4 ТБ NVMe M.2 SSD Kingston KC3000
Корпус: Phanteks Enthoo Pro II Server Edition
Вентиляторы: 5 x Phanteks T30
Причины почему выбраны те или иные комплектующие, и какой паркур по всему миру им пришлось преодолеть, думаю разложить в видосе на ютубе.
Тем, кто задонатил мне на День Рождения, я первым дал в личку ссылки погенерить на нём в Comfy или Forge.
Остальные тоже могут на нём погонять AI-модели или потренить лоры. Просто ставите звёзды постам, и когда их накапливается 50 (можно их и сразу в любой пост вбить), то получаете доступ к модельке раскатанной локально у меня на компе. Это может быть в виде ссылки в посте как мы недавно пробовали, миниапки (тут много плюсов), или контент и UI локально у вас, а моя 4090 по API или ещё как просто удалённо обрабатывает ваши запросы на генерацию.
Тут нужно ещё некоторые вопросы провентилировать, ибо прямого апи на работу со звёздами нет — придётся пойти на некоторый брейкданс с костылями. Но мне нравится вариант, что вы размеренно ставите звёзды понравившимся постам, и хоп: у вас появляется плюха. И я думаю в зависимости от количества поставленных звёзд, плюшек может быть больше, и они могут быть не только в виде компьюта.
Скоро начнём. Stay tuned!
При этом он холодны и тихий в отличие от моего ноута, с которым я просидел рядом с 2018 года.
Если интересны характеристики:
Материнка: MEG Z690 ACE
Видюха: 24 ГБ RTX 4090
Проц: i9 12900k
СЖО: EK-Nucleus AIO CR360 Lux D-RGB
Блок питания: 1600 ВТ Cooler Master V 1600 Platinum V2
Оперативка: 128 ГБ DDR5 Kingston Fury Beast
Хранилище: 2 x 4 ТБ NVMe M.2 SSD Kingston KC3000
Корпус: Phanteks Enthoo Pro II Server Edition
Вентиляторы: 5 x Phanteks T30
Причины почему выбраны те или иные комплектующие, и какой паркур по всему миру им пришлось преодолеть, думаю разложить в видосе на ютубе.
Тем, кто задонатил мне на День Рождения, я первым дал в личку ссылки погенерить на нём в Comfy или Forge.
Остальные тоже могут на нём погонять AI-модели или потренить лоры. Просто ставите звёзды постам, и когда их накапливается 50 (можно их и сразу в любой пост вбить), то получаете доступ к модельке раскатанной локально у меня на компе. Это может быть в виде ссылки в посте как мы недавно пробовали, миниапки (тут много плюсов), или контент и UI локально у вас, а моя 4090 по API или ещё как просто удалённо обрабатывает ваши запросы на генерацию.
Тут нужно ещё некоторые вопросы провентилировать, ибо прямого апи на работу со звёздами нет — придётся пойти на некоторый брейкданс с костылями. Но мне нравится вариант, что вы размеренно ставите звёзды понравившимся постам, и хоп: у вас появляется плюха. И я думаю в зависимости от количества поставленных звёзд, плюшек может быть больше, и они могут быть не только в виде компьюта.
Скоро начнём. Stay tuned!