Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/savostyanov_dmitry/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Дмитрий Савостьянов Вещает | Telegram Webview: savostyanov_dmitry/436 -
Telegram Group & Telegram Channel
Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья



group-telegram.com/savostyanov_dmitry/436
Create:
Last Update:

Вышла статья про DALL-E 3

Суть в том, что модели вроде Stable Diffusion, Midjourney и далее по списку часто игнорируют слова в промптах. Вызвано это тем, что они обучались на датасетах из пар <картинка, текст>, где текст зачастую брался из HTML-тега alt text. А как мы знаем, далеко не всегда alt text заполняется качественно. А даже если и заполняется, обычно там есть только краткое описание без деталей про фон, свет, текстуру и тд, которые так важны для контроля генерации.

Авторы обучили “некоторую LLM” генерировать текстовые описания к картинкам. Для этого они использовали CLIP-эмбединги картинок и текстовые описания из интернета. Далее они затюнили LLM на небольшом датасете из хороших, очень детальных описаний картинок.

С помощью полученной LLM авторы разметили новый датасет из пар <картинка, текст>, где 95% текстов были сгенерированы, а оставшиеся 5% состояли из alt text для регуляризации. На этом датасете и обучали DALL-E 3. Качество в процессе измеряли с помощью новой метрики CLIP-S.

На инференсе, чтобы не выбиваться из распределения длинных, детализированных промптов, ваш входной промпт “апскейлят” с помощью GPT-4. Условно, вы пишите “кот в сапогах”, а DALL-E 3 на вход получит “кот в слегка потертых сапогах из коричневой кожи, очень детализированный мех, студийное освещение, монохромный фон”.

Про архитектуру самой модели и процесс обучения информации почти нет.

Статья

BY Дмитрий Савостьянов Вещает


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/savostyanov_dmitry/436

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from de


Telegram Дмитрий Савостьянов Вещает
FROM American