group-telegram.com/def_model_train/1057
Last Update:
Уже пару раз я бампала аватарку паблика, когда выходила какая-нибудь новая модель для генерации изображений, которая существенно повышала планку в плане качества или стиля. Для сравнения, первая аватарка (кроме фото жабы) была сгенерирована через какой-то GAN в далеком в 2021 году, в 2023 это уже Midjourney v5, и вот теперь наконец-то можно попробовать gpt-4o! Я до сих пор использую тот же самый промпт – "An open notebook, some code on the screen. waporvawe aesthetic, greek statues in the background, light purple hues" (что поделать, душой я все еще в эпохе тамблера)
В плане стиля мне до сих пор вариант Midjourney кажется интересней, но тут кажется очевидно, насколько у gpt-4o лучше instruction following и насколько более точно это попадает в промпт. И особенно понравилось, что ее можно бесконечно задалбывать правочками 💅 Например, подбирать полутона фиолетовотого. Или вообще попросить исправить косяки с анатомией на текущей аватрке, не меняя ничего остального. Или заменить греческие статуи, разумеется, на статуи в стиле studio ghibli. Или даже самой стать аниме девочкой с вапорвейв бекграундом
Этот глубокомысленный пост направлен в основном на то, чтоб вспомнить, как в 2021 году казалось совершенно невероятным, что модель генерит хоть что-то похожее на то, что ты у нее попросил. В 2023 уже стало гораздо лучше и реалистичнее, но проблемы с деталями и с кастомизацией тоже были очевидны. Чего ждать в плане генерации изображений еще через пару лет я уже даже не знаю. Скорее всего, следующий бамп будет уже касательно видео, – OpenAI и/или Google выпустят какой-нибудь instruction-based апдейт для Sora / veo, а мы все будем жаловаться, что модель плохо настраивает светокор, или что на двадцатой минуте видео у человека три руки...