Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/savostyanov_dmitry/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Дмитрий Савостьянов Вещает | Telegram Webview: savostyanov_dmitry/436 -
Telegram Group & Telegram Channel
Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья



group-telegram.com/savostyanov_dmitry/436
Create:
Last Update:

Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья

BY Дмитрий Савостьянов Вещает


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/savostyanov_dmitry/436

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from hk


Telegram Дмитрий Савостьянов Вещает
FROM American