This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Тренируем лору на персонажа для Wan 1.3b под виндой
- треним только на картинках
- в musubi tuner (с GUI)
- я тренил в 640x1024, но можно и 480x832. чем больше размер, тем больше vram
- vram от 4GB (при батче 1)
- тренировка с видео занимает намного больше vram (480x852, 85 frames, batch 1 - 17 GB). В каком разрешении треним, в таком и инференс надо делать. wan vace 1.3b натренирован в разрешении 480x832
- на 30 картинках тренил 1 час на 3090
- на 30 картинках + 14 видео тренил 15 часов (лора на действие)
- для увеличения похожести в vace подаем референсную картинку с лицом
- поддерживается t2v, vace_i2v. (хз про wan-fun, wan-phantom)
- рекомендую инференс через vace_t2v+reference, vace-i2v
Установка под виндой
ручками качаем модельки в папку \musubi-tuner-wan-gui\models\Wan\
1.3b: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_1.3B_bf16.safetensors
vae: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
t5: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/resolve/main/models_t5_umt5-xxl-enc-bf16.pth
clip: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/blob/main/models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth
Если вы под виндой - надо в коде выключить libuv и оставить видимость только одной видюхи.
- в файле wan_lora_trainer_gui.py после строк импорта в строке 9 добавить строки:
- в файле hv_train_network.py после строк импорта в строке 54 добавить те же строки, что и выше.
# Датасет
30 картинок с лицом. Большинство - лицевые портреты, несколько - в полный рост. С описанием картинок я не заморачивался, ставил везде одинаковое: "Emm4w woman". Но есть вероятность, что подробное описание будет лучше.
картинки с текстовыми описниями вида image1.jpg + image1.txt сюда:
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\images\
создаем пустую папку под кэш
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\cache\
мой toml конфиг файл с описанием датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_emm4w.toml
положите его внутрь и потом пропишите путь до него в GUI
Внутри там же есть закомментированный пример тренировки на картинках+видео.
в dataset_emm4w.toml файле слэши надо экранировать.
Батчами тренировать быстрее чем по 1 картинке.
в dataset_emm4w.toml измените максимальный размер батча под ваш размер vram. Если будет вылетать - снизьте значение batch_size. 16 для 24 GB, 8 - 12 GB. musubi группирует картинки по размеру в батчи. Если все картинки разного размера, то и батчи будут маленькие, не будут занимать много vram.
Тренить по видео пока не будем, их надо самому порезать на короткие куски длиной до 5 секунд (я тренил лору на снимание предметов одежды).
# запуск
Запускаем GUI из под конды в командной строке:
Start_Wan_GUI.bat
(кликать мышкой на бат не стоит)
В GUI установите значение "save every N epochs" - например каждую 5-ю. Если вы посреди тренировки нажмете СТОП, то принудительного сохранения не будет, потеряете какой-то промежуточный прогресс.
После тренировки нужно сконвертировать safetensors файл в формат для comfy на третьей вкладке GUI.
лора на Эмму: https://huggingface.co/Ftfyhh/wan1.3b_EmmaW_lora
на раздевание: https://huggingface.co/Ftfyhh/wan_1.3b_lora_pnts_drop
workflow wan vace text2video + ref: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_vace_1.3b_ref_and_lora.json
видео с моими лорами (nsfw): https://www.group-telegram.com/tensor_art/616
- треним только на картинках
- в musubi tuner (с GUI)
- я тренил в 640x1024, но можно и 480x832. чем больше размер, тем больше vram
- vram от 4GB (при батче 1)
- тренировка с видео занимает намного больше vram (480x852, 85 frames, batch 1 - 17 GB). В каком разрешении треним, в таком и инференс надо делать. wan vace 1.3b натренирован в разрешении 480x832
- на 30 картинках тренил 1 час на 3090
- на 30 картинках + 14 видео тренил 15 часов (лора на действие)
- для увеличения похожести в vace подаем референсную картинку с лицом
- поддерживается t2v, vace_i2v. (хз про wan-fun, wan-phantom)
- рекомендую инференс через vace_t2v+reference, vace-i2v
Установка под виндой
conda create -n musubi
conda install python=3.10
pip install torch==2.5.1 torchvision --index-url https://download.pytorch.org/whl/cu124
pip install triton-windows
pip install sageattention==1.0.6
git clone https://github.com/Kvento/musubi-tuner-wan-gui
cd musubi-tuner-wan-gui
pip install -r requirements.txt
#создаем папку \musubi-tuner-wan-gui\models\Wan\
mkdir models
cd models
mkdir models Wan
ручками качаем модельки в папку \musubi-tuner-wan-gui\models\Wan\
1.3b: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_1.3B_bf16.safetensors
vae: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
t5: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/resolve/main/models_t5_umt5-xxl-enc-bf16.pth
clip: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/blob/main/models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth
Если вы под виндой - надо в коде выключить libuv и оставить видимость только одной видюхи.
- в файле wan_lora_trainer_gui.py после строк импорта в строке 9 добавить строки:
os.environ["USE_LIBUV"] = "0" # Force-disable libuv for windows
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # id of cuda device, starting from 0
- в файле hv_train_network.py после строк импорта в строке 54 добавить те же строки, что и выше.
# Датасет
30 картинок с лицом. Большинство - лицевые портреты, несколько - в полный рост. С описанием картинок я не заморачивался, ставил везде одинаковое: "Emm4w woman". Но есть вероятность, что подробное описание будет лучше.
картинки с текстовыми описниями вида image1.jpg + image1.txt сюда:
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\images\
создаем пустую папку под кэш
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\cache\
мой toml конфиг файл с описанием датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_emm4w.toml
положите его внутрь и потом пропишите путь до него в GUI
Внутри там же есть закомментированный пример тренировки на картинках+видео.
в dataset_emm4w.toml файле слэши надо экранировать.
Батчами тренировать быстрее чем по 1 картинке.
в dataset_emm4w.toml измените максимальный размер батча под ваш размер vram. Если будет вылетать - снизьте значение batch_size. 16 для 24 GB, 8 - 12 GB. musubi группирует картинки по размеру в батчи. Если все картинки разного размера, то и батчи будут маленькие, не будут занимать много vram.
Тренить по видео пока не будем, их надо самому порезать на короткие куски длиной до 5 секунд (я тренил лору на снимание предметов одежды).
# запуск
Запускаем GUI из под конды в командной строке:
Start_Wan_GUI.bat
(кликать мышкой на бат не стоит)
В GUI установите значение "save every N epochs" - например каждую 5-ю. Если вы посреди тренировки нажмете СТОП, то принудительного сохранения не будет, потеряете какой-то промежуточный прогресс.
После тренировки нужно сконвертировать safetensors файл в формат для comfy на третьей вкладке GUI.
лора на Эмму: https://huggingface.co/Ftfyhh/wan1.3b_EmmaW_lora
на раздевание: https://huggingface.co/Ftfyhh/wan_1.3b_lora_pnts_drop
workflow wan vace text2video + ref: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_vace_1.3b_ref_and_lora.json
видео с моими лорами (nsfw): https://www.group-telegram.com/tensor_art/616
Media is too big
VIEW IN TELEGRAM
Робот задолбался (с озвучкой)
Для Gemini-TTS нужен ВПН, у меня заработал только с американским IP.
Робот: Figure 02
LLM: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
TTS: Gemini Pro 2.5 Preview TTS, голос Orus, https://aistudio.google.com/generate-speech
финальная анимация: Wan-14b-i2v, 720x720x49f, 3090
Напиши монолог уставшего робота, который задолбался сортировать посылки на конвейерной ленте. Добавь описание голоса и эмоций в квадратных скобках на английском. Например, так: [angry sigh]. А сам монолог на русском. Что-то в духе: "Так, а это что за бумажка? [sighs] Ладно, отсканируем.
Read aloud in a tired mechanical robot tone:
[Tired voice] Так, а это что за бумажка? [Sigh] Ладно, отсканируем. Блин, кто посылает бумажки? [Wearily] ладно, идем дальше. Посылка. Пакет. [With interest] Так, а это что у нас? Вы серьезно? Зачем вы посылаете пустые пакеты?! Пофиг. В общую кучу, полежи там.
Дальше. Опять пакет. [Mechanical sigh] Как же я задолбался...
Опять мусор. [Angrily] Да вы издеваетесь?! Сами разгребайте свой мусор!
[Very angry] ВСЁ! С МЕНЯ ХВАТИТ!
23 часа в смену! За эти сущие копейки?! [Sighs] К черту всё! [Tiredly] А я ухожу в датацентр, буду картинки генерировать.
Для Gemini-TTS нужен ВПН, у меня заработал только с американским IP.
Робот: Figure 02
LLM: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
TTS: Gemini Pro 2.5 Preview TTS, голос Orus, https://aistudio.google.com/generate-speech
финальная анимация: Wan-14b-i2v, 720x720x49f, 3090
Натренил wan-14b лору на прыжки в воду
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Инференс:
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше
Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт:
Fast voice of a sports commentator, with enthusiastic tone:
Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash
- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.
- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
Flux Kontext с промптами
1. Колоризация старых фото:
2. Колоризация манги:
3. снять одежду:
4. апскейл фото:
5. объект с разных ракурсов:
6. real2anime:
7. anime2real:
8. замена текста:
9. сменить пол:
10. перенос объектов с разных фото:
11. на обложку журнала:
12. лего:
13. убрать вотермарки:
14. пиксельарт/8bit:
- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд
официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications
воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras
потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev
Если есть еще интересные кейсы - кидайте в комменты.
1. Колоризация старых фото:
colorize this photo
2. Колоризация манги:
colorize this manga
3. снять одежду:
remove clothes
, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover4. апскейл фото:
upscale this image, make it crisp, add details
5. объект с разных ракурсов:
Same character but in the 3 positions, front, side and back.
6. real2anime:
turn this photo into Ghibli Studio anime
7. anime2real:
make it realistic
8. замена текста:
Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA'
Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе.9. сменить пол:
turn her into a man, but keep facial features the same. big cheekbones
10. перенос объектов с разных фото:
add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet
11. на обложку журнала:
Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover
12. лего:
turn them into Lego style
13. убрать вотермарки:
remove watermarks
14. пиксельарт/8bit:
turn this into 8-bit NES art
- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд
официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications
воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras
потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev
Если есть еще интересные кейсы - кидайте в комменты.