group-telegram.com/seeallochnaya/2127
Last Update:
На всякий случай напишу отдельно, так как это легко пропустить. Новая Gemini умеет генерировать изображения сама, без вызова внешних рисовалок. При этом свои же картинки она видит в контексте, и умеет копировать части изображения. Такое умеет и gpt-4o, но эту фишку OpenAI пока не выпустили — быть может, в оставшиеся 7 дней релизов успеют.
Это открывает доступ к новым сценариям, невозможным (или затруднительным) ранее. На скриншотах вы видите пример, как пользователь подсунул картинку из мема «рисуем сову», и попросил дорисовать все промежуточные шаги. Модель взяла часть исходной картинки за основу и сгенирировала несколько новых (по сути «поверх», но там сгенерирован каждый пиксель, нет команды «вот это оставляем, вот это меняем»).
Круто, что модель сама поняла, как декомпозировать рисунок, без дополнительных указаний, так ещё и шаги пронумеровала — 1.25, 1.5
Другие сценарии применения (в том числе генерацию GIF-ок) можете посмотреть в оригинальном блогпосте про GPT-4o (+1 последняя картинка тут для затравки).
Источник картинок