Telegram Group Search
Тренируем лору на персонажа для Wan 1.3b под виндой

- треним только на картинках
- в musubi tuner (с GUI)
- я тренил в 640x1024, но можно и 480x832. чем больше размер, тем больше vram
- vram от 4GB (при батче 1)
- тренировка с видео занимает намного больше vram (480x852, 85 frames, batch 1 - 17 GB). В каком разрешении треним, в таком и инференс надо делать. wan vace 1.3b натренирован в разрешении 480x832
- на 30 картинках тренил 1 час на 3090
- на 30 картинках + 14 видео тренил 15 часов (лора на действие)
- для увеличения похожести в vace подаем референсную картинку с лицом
- поддерживается t2v, vace_i2v. (хз про wan-fun, wan-phantom)
- рекомендую инференс через vace_t2v+reference, vace-i2v

Установка под виндой

conda create -n musubi
conda install python=3.10
pip install torch==2.5.1 torchvision --index-url https://download.pytorch.org/whl/cu124
pip install triton-windows
pip install sageattention==1.0.6

git clone https://github.com/Kvento/musubi-tuner-wan-gui
cd musubi-tuner-wan-gui
pip install -r requirements.txt

#создаем папку \musubi-tuner-wan-gui\models\Wan\
mkdir models
cd models
mkdir models Wan


ручками качаем модельки в папку \musubi-tuner-wan-gui\models\Wan\
1.3b: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_1.3B_bf16.safetensors
vae: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
t5: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/resolve/main/models_t5_umt5-xxl-enc-bf16.pth
clip: https://huggingface.co/Wan-AI/Wan2.1-I2V-14B-720P/blob/main/models_clip_open-clip-xlm-roberta-large-vit-huge-14.pth


Если вы под виндой - надо в коде выключить libuv и оставить видимость только одной видюхи.

- в файле wan_lora_trainer_gui.py после строк импорта в строке 9 добавить строки:
os.environ["USE_LIBUV"] = "0"  # Force-disable libuv for windows
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # id of cuda device, starting from 0


- в файле hv_train_network.py после строк импорта в строке 54 добавить те же строки, что и выше.


# Датасет
30 картинок с лицом. Большинство - лицевые портреты, несколько - в полный рост. С описанием картинок я не заморачивался, ставил везде одинаковое: "Emm4w woman". Но есть вероятность, что подробное описание будет лучше.
картинки с текстовыми описниями вида image1.jpg + image1.txt сюда:
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\images\
создаем пустую папку под кэш
c:\DATA\SD\musubi-tuner-wan-gui\dataset\Emm4w\cache\

мой toml конфиг файл с описанием датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_emm4w.toml
положите его внутрь и потом пропишите путь до него в GUI
Внутри там же есть закомментированный пример тренировки на картинках+видео.

в dataset_emm4w.toml файле слэши надо экранировать.
Батчами тренировать быстрее чем по 1 картинке.
в dataset_emm4w.toml измените максимальный размер батча под ваш размер vram. Если будет вылетать - снизьте значение batch_size. 16 для 24 GB, 8 - 12 GB. musubi группирует картинки по размеру в батчи. Если все картинки разного размера, то и батчи будут маленькие, не будут занимать много vram.

Тренить по видео пока не будем, их надо самому порезать на короткие куски длиной до 5 секунд (я тренил лору на снимание предметов одежды).

# запуск
Запускаем GUI из под конды в командной строке:
Start_Wan_GUI.bat
(кликать мышкой на бат не стоит)

В GUI установите значение "save every N epochs" - например каждую 5-ю. Если вы посреди тренировки нажмете СТОП, то принудительного сохранения не будет, потеряете какой-то промежуточный прогресс.

После тренировки нужно сконвертировать safetensors файл в формат для comfy на третьей вкладке GUI.

лора на Эмму: https://huggingface.co/Ftfyhh/wan1.3b_EmmaW_lora
на раздевание: https://huggingface.co/Ftfyhh/wan_1.3b_lora_pnts_drop
workflow wan vace text2video + ref: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_vace_1.3b_ref_and_lora.json
видео с моими лорами (nsfw): https://www.group-telegram.com/tensor_art/616
Media is too big
VIEW IN TELEGRAM
Робот задолбался (с озвучкой)

Напиши монолог уставшего робота, который задолбался сортировать посылки на конвейерной ленте. Добавь описание голоса и эмоций в квадратных скобках на английском. Например, так: [angry sigh]. А сам монолог на русском. Что-то в духе: "Так, а это что за бумажка? [sighs] Ладно, отсканируем.


Read aloud in a tired mechanical robot tone:


[Tired voice] Так, а это что за бумажка? [Sigh] Ладно, отсканируем. Блин, кто посылает бумажки? [Wearily] ладно, идем дальше. Посылка. Пакет. [With interest] Так, а это что у нас? Вы серьезно? Зачем вы посылаете пустые пакеты?! Пофиг. В общую кучу, полежи там.

Дальше. Опять пакет. [Mechanical sigh] Как же я задолбался...

Опять мусор. [Angrily] Да вы издеваетесь?! Сами разгребайте свой мусор!

[Very angry] ВСЁ! С МЕНЯ ХВАТИТ!

23 часа в смену! За эти сущие копейки?! [Sighs] К черту всё! [Tiredly] А я ухожу в датацентр, буду картинки генерировать.


Для Gemini-TTS нужен ВПН, у меня заработал только с американским IP.

Робот: Figure 02
LLM: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
TTS: Gemini Pro 2.5 Preview TTS, голос Orus, https://aistudio.google.com/generate-speech
финальная анимация: Wan-14b-i2v, 720x720x49f, 3090
Натренил wan-14b лору на прыжки в воду

Детали тренировки:
- на 3090, 20 часов
- 11 коротких вертикальных видео, 3-4 секунды, 16fps. часть в slo-mo, часть - нет. 16fps можно конвертировать в comfyui через "vhs Load/Combine"
- видео тренились в разрешении 224x384 на 33, 49 и 57 кадрах
- 60 фото с разными планами для доп. информации о деталях
- фото тренились в разрешении 656x992
- сперва тренил разные типы прыжков, но ван их часто путал, и получалась каша. Поэтому во второй части тренировки удалил лишние прыжки и оставил только один прыжок с трамплина с сальто вперед
- скорость трени: 12 s/it, batch 1, потребление vram - 24 GB
- приложение - musubi wan gui: https://github.com/Kvento/musubi-tuner-wan-gui
- как установить под виндой - было в посте чуть выше

Озвучка:
- LLM для написания монолога комментатора: gemini-2.5-pro-preview-06-05, https://lmarena.ai/
- TTS: Gemini Pro 2.5 Preview TTS, голос Puck, нужен впн сша: https://aistudio.google.com/generate-speech
- TTS промпт: Fast voice of a sports commentator, with enthusiastic tone:

Инференс:
diving competition, 25yo woman in a white wedding dress is jumping and diving on a springboard at competition, front jump, side view, then dives into water, water splash

- описание видео в датасете было примерно таким же.
- у Wan не всегда получается красивое движение, иногда получается каша. Рекомендую использовать сид 105 в прикрепленном воркфлоу, половина видео была сделана именно с ним.
- рекомендованные настройки: 480x832x65 кадров, 25 steps. На 3090 занимает 9 минут.

- воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/wan_14b_t2v_diving_lora.json
- toml конфиг датасета: https://github.com/Mozer/comfy_stuff/blob/main/musubi/dataset_diving_14b.toml
- лора: https://huggingface.co/Ftfyhh/wan_14b_diving_lora
- civitai: https://civitai.com/models/1666148?modelVersionId=1885880
- также натренил 14b hand_grab nsfw лору. пример тут: https://www.group-telegram.com/tensor_art/1019
Please open Telegram to view this post
VIEW IN TELEGRAM
Flux Kontext с промптами

1. Колоризация старых фото: colorize this photo
2. Колоризация манги: colorize this manga
3. снять одежду: remove clothes, нужна лора https://huggingface.co/llama-anon/not-flux-kontext-dev-clothes-remover
4. апскейл фото: upscale this image, make it crisp, add details
5. объект с разных ракурсов: Same character but in the 3 positions, front, side and back.
6. real2anime: turn this photo into Ghibli Studio anime
7. anime2real: make it realistic
8. замена текста: Replace text 'BKYCHO - U TO4KA' with text 'BKYC ßAHAHA' Моя русская лора https://civitai.com/models/1056401/russian-text-or-flux , но работает так себе.
9. сменить пол: turn her into a man, but keep facial features the same. big cheekbones
10. перенос объектов с разных фото: add woman from the right image to the left image. so now they are standing together. make them the same height. right woman has bare feet
11. на обложку журнала: Turn this into VOGUE magazine cover. background is now grey. Add some titles on the cover
12. лего: turn them into Lego style
13. убрать вотермарки: remove watermarks
14. пиксельарт/8bit: turn this into 8-bit NES art


- Разрешение 1024x1024, 1568x672 и разные вариации. Можно больше, но, скорее всего, будет хуже.
- Лоры от Flux dev работают, но хуже.
- Работает на 15-20 шагах, 40-55 секунд на 3090. TeaCache работает, но возможны ухудшения качества. 15 шагов + teacache_0.40 = 20 секунд

официальный гайд по Kontext: https://docs.bfl.ai/guides/prompting_guide_kontext_i2i#basic-object-modifications

воркфлоу: https://comfyanonymous.github.io/ComfyUI_examples/flux/#flux-extras

потестить онлайн: https://huggingface.co/spaces/black-forest-labs/FLUX.1-Kontext-Dev

Если есть еще интересные кейсы - кидайте в комменты.
2025/07/02 08:53:09
Back to Top
HTML Embed Code: