The economic consequences of automating remote work
Новая работа от Epoch.ai (если это название вбить в поиск по каналу, найдёте предыдущие посты). Как мы обсуждали десяток раз, у AGI много определений. К сожалению, люди почти никогда не сопровождают предсказания и оценки своим определением, что создаёт путаницу. Один и тот же человек может говорить «я не верю в AGI в течение 10 лет» и «да, большая часть удалённых работ может быть автоматизированна лет через 6-7» (потому что его определение AGI включает роботов, делающих задачи в реальном мире; моё личное определение не включает).
Формулировку «замена удалённых сотрудников» несколько раз использовал CEO OpenAI, говоря про то, что они стремятся сделать. Действительно существуют работы, с работниками которых вы по сути взаимодействуете через монитор, и для вас не играет роли, машина это или человек. Возникает вопрос — если предположить, что AI всё же сможет развиться до уровня среднего сотрудника большинства работ, которые могут быть выполнены на удалёнке, то какой экономический рост нам стоит ожидать? И не будет ли он упираться в работу людей в физическом мире, не подлежащую переносу в онлайн?
Для ответа на вопрос автор взял базу O*NET, поддерживаемую департаментом труда США и описывающую почти все типы работ и задачи, надлежащие к выполнению в их рамках. Эту БД кстати уже брали для статьи GPTs are GPTs, опубликованную после релиза GPT-4 (OpenAI в соавторстве), где пытались оценить долю автоматизации LLM-ками. На правах заметки на полях озвучу одну из своих мыслей: подозреваю, что где-то внутри OpenAI x Microsoft идёт создание бенчмарка реальных задач для большого количества описанных профессий, чтобы измерять экономический эффект моделей и находить кейсы применения. Ждём с релизом GPT-5? 6?
По этой базе прогоняют GPT-4o с промптом и просят каждую задачу отнести к двум категориям: 1) может быть выполнена на удалёнке 2) не может. Исследователь опускается на уровень задач, а не целых профессий, чтобы сделать более точный анализ, поскольку автоматизация редко приводит к тому, что целые профессии становятся устаревшими одномоментно. Скорее автоматизацию лучше описать как постоянное расширение набора задач, которые может выполнять машина.
По итогу 34% задач могут быть выполнены полностью удалённо, однако всего 13% профессий имеют топ-5 самых важных задач, состоящих полностью из remote-friendly (18% для топ-3, если интересно).
Дальше автор анализирует показатель эластичности замещения — экономический показатель, который количественно определяет степень, в которой одна задача или товар может заменить другой в производстве или потреблении. Это самый важный параметр в исследовании, и от его выбора меняются результаты.
Чтобы понять, что это за показатель, можно рассмотреть две контрастных ситуации. Первая — агрокультура; некогда она занимала большую часть того, чем люди занимались вообще, но автоматизация хоть и привела к её буйному росту, однако по итогу агрокультуры составляют 1-2% ВВП США (нет бесконечного роста). Вторая — текстиль в Великобритании, который с приходом автоматизации был важным фактором промышленной революции (спрос и производство выросли настолько, что стали основной экономики в моменте).
Первый пример иллюстрирует критический момент: поскольку автоматизация преобразует сектор, его важность в экономике в целом может снизиться.
Дальше собственно делаются оценки этого параметра на основе Ковида, когда треть населения США ушла на удалёнку, а ВВП просел, но очень незначительно (сильно меньше, чем ожидалось). Делается кросс-проверка с аналитикой экономистов в других работах итд (даже есть метанализ 682 оценок из 72 исследований), не буду описывать все детали.
Пессимистичная оценка 0.5 (примерно столько между едой и не едой; производство еды не может быть полностью заменено другими задачами просто потому что нам надо выживать), реалистичная находится где-то около 1-4 (ближе к правому концу), оптимистичная — 10 и выше.
Новая работа от Epoch.ai (если это название вбить в поиск по каналу, найдёте предыдущие посты). Как мы обсуждали десяток раз, у AGI много определений. К сожалению, люди почти никогда не сопровождают предсказания и оценки своим определением, что создаёт путаницу. Один и тот же человек может говорить «я не верю в AGI в течение 10 лет» и «да, большая часть удалённых работ может быть автоматизированна лет через 6-7» (потому что его определение AGI включает роботов, делающих задачи в реальном мире; моё личное определение не включает).
Формулировку «замена удалённых сотрудников» несколько раз использовал CEO OpenAI, говоря про то, что они стремятся сделать. Действительно существуют работы, с работниками которых вы по сути взаимодействуете через монитор, и для вас не играет роли, машина это или человек. Возникает вопрос — если предположить, что AI всё же сможет развиться до уровня среднего сотрудника большинства работ, которые могут быть выполнены на удалёнке, то какой экономический рост нам стоит ожидать? И не будет ли он упираться в работу людей в физическом мире, не подлежащую переносу в онлайн?
Для ответа на вопрос автор взял базу O*NET, поддерживаемую департаментом труда США и описывающую почти все типы работ и задачи, надлежащие к выполнению в их рамках. Эту БД кстати уже брали для статьи GPTs are GPTs, опубликованную после релиза GPT-4 (OpenAI в соавторстве), где пытались оценить долю автоматизации LLM-ками. На правах заметки на полях озвучу одну из своих мыслей: подозреваю, что где-то внутри OpenAI x Microsoft идёт создание бенчмарка реальных задач для большого количества описанных профессий, чтобы измерять экономический эффект моделей и находить кейсы применения. Ждём с релизом GPT-5? 6?
По этой базе прогоняют GPT-4o с промптом и просят каждую задачу отнести к двум категориям: 1) может быть выполнена на удалёнке 2) не может. Исследователь опускается на уровень задач, а не целых профессий, чтобы сделать более точный анализ, поскольку автоматизация редко приводит к тому, что целые профессии становятся устаревшими одномоментно. Скорее автоматизацию лучше описать как постоянное расширение набора задач, которые может выполнять машина.
По итогу 34% задач могут быть выполнены полностью удалённо, однако всего 13% профессий имеют топ-5 самых важных задач, состоящих полностью из remote-friendly (18% для топ-3, если интересно).
Дальше автор анализирует показатель эластичности замещения — экономический показатель, который количественно определяет степень, в которой одна задача или товар может заменить другой в производстве или потреблении. Это самый важный параметр в исследовании, и от его выбора меняются результаты.
Чтобы понять, что это за показатель, можно рассмотреть две контрастных ситуации. Первая — агрокультура; некогда она занимала большую часть того, чем люди занимались вообще, но автоматизация хоть и привела к её буйному росту, однако по итогу агрокультуры составляют 1-2% ВВП США (нет бесконечного роста). Вторая — текстиль в Великобритании, который с приходом автоматизации был важным фактором промышленной революции (спрос и производство выросли настолько, что стали основной экономики в моменте).
Первый пример иллюстрирует критический момент: поскольку автоматизация преобразует сектор, его важность в экономике в целом может снизиться.
Дальше собственно делаются оценки этого параметра на основе Ковида, когда треть населения США ушла на удалёнку, а ВВП просел, но очень незначительно (сильно меньше, чем ожидалось). Делается кросс-проверка с аналитикой экономистов в других работах итд (даже есть метанализ 682 оценок из 72 исследований), не буду описывать все детали.
Пессимистичная оценка 0.5 (примерно столько между едой и не едой; производство еды не может быть полностью заменено другими задачами просто потому что нам надо выживать), реалистичная находится где-то около 1-4 (ближе к правому концу), оптимистичная — 10 и выше.
В пессимистичном сценарии выходит, что при увеличении количества «удалёнщиков» в 100 раз (в рамках тех самых 34% задач) приведёт к удвоению ВВП (что глобально имеет всё равно огромный эффект; если это произойдёт в течение одного десятилетия, то будет соответствовать ежегодному росту ВВП в 7%, у США с 2013го по 2021й средний рост 2%).
«Однако, по моему мнению, этот пессимистический сценарий чрезвычайно консервативен. Значение эластичности замещения ниже 1, по-видимому, противоречит как экономическим данным во время пандемии, так и косвенным оценкам. Учитывая эти данные, я считаю оптимистический сценарий более вероятным» — пишет автор и уходит в разнос.
В оптимтистичном сценарии возникает гораздо более радикальная картина: реальный ВВП вырастает более чем в 10 раз, если число удаленных работников увеличивается в 100–1000 раз [за счёт AI-автоматизации]. Если ВВП увеличивается «всего лишь» в 10 раз в течение десятилетия, то темпы экономического роста превысят 25% в год — существенно больше, чем когда-либо в истории США.
«10-кратный рост экономики мне кажется вероятным, а 100-кратное увеличение не кажется невозможным» — подытожил исследователь.
Таким образом, создание AGI в значении «почти беспрепятственная замена почти любого удалёнщика» даже без фантазий о роботах в реальном мире, лишь со взаимодействием через экраны мониторов, приведёт к невообразимым экономическим изменениям.
Главный вопрос — верим ли мы Саме😏
«Однако, по моему мнению, этот пессимистический сценарий чрезвычайно консервативен. Значение эластичности замещения ниже 1, по-видимому, противоречит как экономическим данным во время пандемии, так и косвенным оценкам. Учитывая эти данные, я считаю оптимистический сценарий более вероятным» — пишет автор и уходит в разнос.
В оптимтистичном сценарии возникает гораздо более радикальная картина: реальный ВВП вырастает более чем в 10 раз, если число удаленных работников увеличивается в 100–1000 раз [за счёт AI-автоматизации]. Если ВВП увеличивается «всего лишь» в 10 раз в течение десятилетия, то темпы экономического роста превысят 25% в год — существенно больше, чем когда-либо в истории США.
«10-кратный рост экономики мне кажется вероятным, а 100-кратное увеличение не кажется невозможным» — подытожил исследователь.
Таким образом, создание AGI в значении «почти беспрепятственная замена почти любого удалёнщика» даже без фантазий о роботах в реальном мире, лишь со взаимодействием через экраны мониторов, приведёт к невообразимым экономическим изменениям.
Главный вопрос — верим ли мы Саме
Please open Telegram to view this post
VIEW IN TELEGRAM
Из блога Ethan Mollick, профессора University of Pennsylvania (и со-автора клёвого исследования вместе с BCG про влияние LLM на работу топ-консультантов) об опыте использования режима Deep Research в гугловской Gemini.
Что такое Deep Research? Вы пишете развёрнутый запрос, под капотом LLM-ка вычитывает сотни (без преувеличения) сайтов и составляет объемный ответ, расставляя цитирования. Доступно подписчикам Gemini за $20 (я ещё не пробовал, хотел взять подписку в начале февраля, когда будут доступны Gemini 2 Pro / Thinking, чтобы поиграться с ними).
===
— Я дал ему тему вроде «исследование сравнения способов финансирования стартап-компаний с точки зрения основателей, для быстрорастущих бизнесов». И система придумала план, прочитала 173(!) веб-сайта и через несколько минут составила для меня отчет с ответом.
Результатом стала 17-страничная статья со 118 ссылками! Но так ли она хороша? Я преподавал вводный курс по предпринимательству в University of Pennsylvania более десяти лет, публиковался по этой теме, сам открывал компании и даже написал книгу о предпринимательстве, и я думаю, что результат получился довольно солидным. Я не заметил никаких очевидных ошибок, но вы можете прочитать результат сами, если хотите, здесь. Самая большая проблема заключается не в точности, а в том, что LLM ограничена материалами, доступными публично и бесплатно, без подписок, и не имеет возможности читать научные/премиум издания. Она также немного поверхностна и не приводит весомых аргументов перед лицом противоречивых доказательств. Так что не так хороша, как лучшие люди, но лучше, чем многие отчеты, которые я вижу.
Тем не менее, это действительно прорывной пример использования системы с реальной ценностью. Исследования и написание отчетов являются основной задачей многих работ. То, что Deep Research сделал за три минуты, заняло бы у человека много часов, хотя они могли бы добавить более точный анализ. Учитывая это, любой, кто пишет исследовательский отчет, вероятно, должен попробовать Deep Research и посмотреть, как он работает в качестве отправной точки, хотя хороший окончательный отчет все равно потребует человеческого прикосновения.
===
Кто-нибудь из подписчиков уже пробовал активно пользоваться этой фичей? Как вам? Делитесь в комментариях!
Что такое Deep Research? Вы пишете развёрнутый запрос, под капотом LLM-ка вычитывает сотни (без преувеличения) сайтов и составляет объемный ответ, расставляя цитирования. Доступно подписчикам Gemini за $20 (я ещё не пробовал, хотел взять подписку в начале февраля, когда будут доступны Gemini 2 Pro / Thinking, чтобы поиграться с ними).
===
— Я дал ему тему вроде «исследование сравнения способов финансирования стартап-компаний с точки зрения основателей, для быстрорастущих бизнесов». И система придумала план, прочитала 173(!) веб-сайта и через несколько минут составила для меня отчет с ответом.
Результатом стала 17-страничная статья со 118 ссылками! Но так ли она хороша? Я преподавал вводный курс по предпринимательству в University of Pennsylvania более десяти лет, публиковался по этой теме, сам открывал компании и даже написал книгу о предпринимательстве, и я думаю, что результат получился довольно солидным. Я не заметил никаких очевидных ошибок, но вы можете прочитать результат сами, если хотите, здесь. Самая большая проблема заключается не в точности, а в том, что LLM ограничена материалами, доступными публично и бесплатно, без подписок, и не имеет возможности читать научные/премиум издания. Она также немного поверхностна и не приводит весомых аргументов перед лицом противоречивых доказательств. Так что не так хороша, как лучшие люди, но лучше, чем многие отчеты, которые я вижу.
Тем не менее, это действительно прорывной пример использования системы с реальной ценностью. Исследования и написание отчетов являются основной задачей многих работ. То, что Deep Research сделал за три минуты, заняло бы у человека много часов, хотя они могли бы добавить более точный анализ. Учитывая это, любой, кто пишет исследовательский отчет, вероятно, должен попробовать Deep Research и посмотреть, как он работает в качестве отправной точки, хотя хороший окончательный отчет все равно потребует человеческого прикосновения.
===
Кто-нибудь из подписчиков уже пробовал активно пользоваться этой фичей? Как вам? Делитесь в комментариях!
Forwarded from БлоGнот
Каникулы для многих были не только временем для отдыха, но и моментом для написания серьезных текстов. Так что, пока мир не раскачался для новостей, почитайте хороший текст про o1.
Автор текста — Бен Хайлак, ранее разработчик в SpaceX и Apple (он занимался разработкой для Apple Vision Pro) изначально был настроен скептически, но изменил своё мнение.
Ключевой момент — o1 это не чат-модель, а скорее "генератор отчетов". Модель требует огромного количества контекста и четкого описания желаемого результата, но затем способна выдать точное решение с первого раза. При правильном использовании она показывает впечатляющие результаты в генерации кода, медицинской диагностике и объяснении сложных концепций.
Однако есть и недостатки — высокая латентность (до 5 минут на ответ), проблемы с написанием текстов в определенном стиле и неспособность самостоятельно создать приложение, состоящее более чем из одного файла. Интерфейс также нуждается в доработке — например, для лучшей навигации по длинным ответам и управления контекстом.
Бен считает, что высокая стоимость ($200/месяц за o1 pro) может быть оправдана, если модель экономит хотя бы 1-2 часа работы инженера в месяц. При этом дороговизна затрудняет экспериментирование — можно легко потратить тысячи долларов за считанные минуты (речь про API)
Кстати, а кто уже раскошелился на Pro? По отзывам, которые я вижу, самый оптимальный способ использования — это нагрузить o1 контекстом, получить от неё архитектуру решения и пойти её реализовывать в Claude, например.
https://www.latent.space/p/o1-skill-issue
Автор текста — Бен Хайлак, ранее разработчик в SpaceX и Apple (он занимался разработкой для Apple Vision Pro) изначально был настроен скептически, но изменил своё мнение.
Ключевой момент — o1 это не чат-модель, а скорее "генератор отчетов". Модель требует огромного количества контекста и четкого описания желаемого результата, но затем способна выдать точное решение с первого раза. При правильном использовании она показывает впечатляющие результаты в генерации кода, медицинской диагностике и объяснении сложных концепций.
Однако есть и недостатки — высокая латентность (до 5 минут на ответ), проблемы с написанием текстов в определенном стиле и неспособность самостоятельно создать приложение, состоящее более чем из одного файла. Интерфейс также нуждается в доработке — например, для лучшей навигации по длинным ответам и управления контекстом.
Бен считает, что высокая стоимость ($200/месяц за o1 pro) может быть оправдана, если модель экономит хотя бы 1-2 часа работы инженера в месяц. При этом дороговизна затрудняет экспериментирование — можно легко потратить тысячи долларов за считанные минуты (речь про API)
Кстати, а кто уже раскошелился на Pro? По отзывам, которые я вижу, самый оптимальный способ использования — это нагрузить o1 контекстом, получить от неё архитектуру решения и пойти её реализовывать в Claude, например.
https://www.latent.space/p/o1-skill-issue
www.latent.space
o1 isn’t a chat model (and that’s the point)
How Ben Hylak turned from ol pro skeptic to fan by overcoming his skill issue.
Пока я гадаю, что произойдет быстрее — курьер привезёт завтрак или BlueOrigin запустят ракету, обновился бенчмарк LiveCodeBench. Это набор задач на программирование с LeetCode, AtCoder и CodeForces с привязкой ко времени их выпуска. Сам бенчмарк позволяет строить таблицу лидеров по срезу времени, с такого-то месяца по такой.
Это позволяет сравнивать модели в том числе на очень свежих задачах, которые модели скорее всего не выучили, так как их просто не существовало во время тренировки. Конечно, какие-то задачки наверняка могут быть очень близкими переформулирвоками тех, что встречались лет 5-7 назад, и модели с ними могут справляться лучше, чем с совсем неизвестными, но это уже что-то. На скриншоте я выбрал срез с сентября 2024-го, так как оценка топ-1 решения не меняется с этого периода (а значит скорее всего почти не переобучена)
Также в обновлении прогнали рассуждающие модели:
— o1 от OpenAI (занимает первые места с большим отрывом)
— QwQ-32b от Qwen
— Gemini-Flash-2.0-Thinking от Google
Почему o1 повторяется аж 3 раза? Всё дело в параметре reasoning_effortв API OpenAI, который контролирует длину цепочки рассуждений. Если задача не сложная и вы не хотите много платить + долго ждать — можете указать «думай меньше», а если наоборот, то «сиди и работай пока работается». Между средним и низкими уровнями разница не очень большая, а вот High на сложных задачах (самая правая колонка) существенно докидывает — больше 10%. Эта разница, если что, сравнима с абсолютным показателем какого-нибудь Sonnet 3.6.
Видно, что по-хорошему с Hard задачами справляются только рассуждающие модели от OpenAI, и всё — для остальных доля решений смешная. Но означает ли это, что их модели гораздо лучше для любых задач по программированию? Если вы читали мой пост про бенчмарки, то знаете, что ответ — нет. Тут измеряется умение писать ответы на Python (сразу отсекаем другие языки) для около-олимпиадных задач (не типовые) без использования почти любых библиотек (кроме стандартных), с применением паттернов, присущим конкретно таким задачам (редкие приёмы итд), когда в промпте указано 2-3 примера работы и есть сигнатура функции.
Как вы видите, это не связано напрямую с качеством того, как модель будет писать вам Rust-скрипт для парсинга интернета — просто потому что это другое, хоть и несколько коррелирующее измерение. Но OpenAI канеш впереди🥹
Лидерборд тут
Это позволяет сравнивать модели в том числе на очень свежих задачах, которые модели скорее всего не выучили, так как их просто не существовало во время тренировки. Конечно, какие-то задачки наверняка могут быть очень близкими переформулирвоками тех, что встречались лет 5-7 назад, и модели с ними могут справляться лучше, чем с совсем неизвестными, но это уже что-то. На скриншоте я выбрал срез с сентября 2024-го, так как оценка топ-1 решения не меняется с этого периода (а значит скорее всего почти не переобучена)
Также в обновлении прогнали рассуждающие модели:
— o1 от OpenAI (занимает первые места с большим отрывом)
— QwQ-32b от Qwen
— Gemini-Flash-2.0-Thinking от Google
Почему o1 повторяется аж 3 раза? Всё дело в параметре reasoning_effortв API OpenAI, который контролирует длину цепочки рассуждений. Если задача не сложная и вы не хотите много платить + долго ждать — можете указать «думай меньше», а если наоборот, то «сиди и работай пока работается». Между средним и низкими уровнями разница не очень большая, а вот High на сложных задачах (самая правая колонка) существенно докидывает — больше 10%. Эта разница, если что, сравнима с абсолютным показателем какого-нибудь Sonnet 3.6.
Видно, что по-хорошему с Hard задачами справляются только рассуждающие модели от OpenAI, и всё — для остальных доля решений смешная. Но означает ли это, что их модели гораздо лучше для любых задач по программированию? Если вы читали мой пост про бенчмарки, то знаете, что ответ — нет. Тут измеряется умение писать ответы на Python (сразу отсекаем другие языки) для около-олимпиадных задач (не типовые) без использования почти любых библиотек (кроме стандартных), с применением паттернов, присущим конкретно таким задачам (редкие приёмы итд), когда в промпте указано 2-3 примера работы и есть сигнатура функции.
Как вы видите, это не связано напрямую с качеством того, как модель будет писать вам Rust-скрипт для парсинга интернета — просто потому что это другое, хоть и несколько коррелирующее измерение. Но OpenAI канеш впереди
Лидерборд тут
Please open Telegram to view this post
VIEW IN TELEGRAM
.Ракета New Glenn с первого пуска достигла орбиты, что являлось основной целью миссии. К сожалению, второстепенная цель, посадка ускорителя, не была выполнена — после повторного включения двигателей для гашения скорости через несколько секунд аппарат был утерян. Деталей пока нет 🤷♂️ Последний раз её видели на высоте 25 км при скорости 6900 км/ч.
С одной стороны сегодня мы получили новую орбитальную ракету тяжелого класса, с другой — не получили ещё одну систему с возвращаемым ускорителем. Посмотрим, что будет в следующий раз — сложно сказать, сколько ракет готово полететь в ближайшее время, и насколько быстры итерации в компании Bezos'а. Это у SpaceX подход «ща запустим, посмотрим что будет, дальше поправим и норм — у нас ещё 3 штуки в ангаре», Blue Origin же больше похожи на NASA: всё проверять и перепроверять на земле по десятку раз, медленно, с чувством, с толком. Однако на весну вроде как запланирован пуск миссии EscaPADE.
Смеяться над «неудачей» нечего, посадка орбитальной ракеты суперсложное дело, которое освоила лишь одна компания в мире. И так как от Blue Origin никаких клёвых кадров после разделения ступеней нет, то предлагаю посмотреть старое видео SpaceX «Как не следует приземлять орбитальный ракетный ускоритель»
UPD: не забываем что сегодня ночью пуск SpaceX Starship! В 01:00 по МСК ждом — будет запуск макета полезной нагрузки и попытки посадки обеих ступеней.
С одной стороны сегодня мы получили новую орбитальную ракету тяжелого класса, с другой — не получили ещё одну систему с возвращаемым ускорителем. Посмотрим, что будет в следующий раз — сложно сказать, сколько ракет готово полететь в ближайшее время, и насколько быстры итерации в компании Bezos'а. Это у SpaceX подход «ща запустим, посмотрим что будет, дальше поправим и норм — у нас ещё 3 штуки в ангаре», Blue Origin же больше похожи на NASA: всё проверять и перепроверять на земле по десятку раз, медленно, с чувством, с толком. Однако на весну вроде как запланирован пуск миссии EscaPADE.
Смеяться над «неудачей» нечего, посадка орбитальной ракеты суперсложное дело, которое освоила лишь одна компания в мире. И так как от Blue Origin никаких клёвых кадров после разделения ступеней нет, то предлагаю посмотреть старое видео SpaceX «Как не следует приземлять орбитальный ракетный ускоритель»
UPD: не забываем что сегодня ночью пуск SpaceX Starship! В 01:00 по МСК ждом — будет запуск макета полезной нагрузки и попытки посадки обеих ступеней.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
How Not to Land an Orbital Rocket Booster
Forwarded from Knowledge Accumulator
Давно тебя не было в крысиных гонках. Заходи!
Мне кажется, немногие глубоко задумываются о том, в каком финансовом положении они находятся относительно других, а также о том, насколько в принципе люди в разных странах много зарабатывают.
Многие ошибочно считают финансовое состояние неважной вещью, но это травма прямиком из совка, в котором быть финансово состоявшимся - это ругательство и противоречит политике партии.
Рассмотрим понятие Net Worth - общего накопленного состояния - сумма ваших активов за вычетом долгов. На этой странице приведены 99 процентилей Household Net Worth - состояния семьи, на территории США (всего их 130млн). Если вдруг вы не осознаёте, насколько Америка охуенно богатая по сравнению с другими, то вас ждёт сюрприз.
$192,084 - это медианное состояние американской семьи, с учётом недвижимости в собственности. >65 миллионов домохозяйств могли бы себе позволить купить 2 квартиры в Москве - звучит неплохо.
$1,009,860 - это 82-я перцентиль. То есть более 23 миллионов семей-миллионеров. $13,666,778 - это 99-я перцентиль - это всё ещё больше миллиона семей! То, что вам может казаться невероятным количеством бабла, на самом деле массово распространённое в Америке явление. Более высокие квантили можно изучить здесь.
Тут есть такие же данные, разбитые по возрастным промежуткам. Здесь есть шанс поправить самооценку. До 39 лет обладание $864,340 выведет вас уже в 90-ю перцентиль, а для 99-й нужно обладать всего 4.7М долларов! Блин, как-то не сильно лучше стало, честно говоря. В моём 25-29 дивизионе $296,830 уже достаточно для 90-й, но лично я за эту черту бедности пока не перешёл.
Ладно, а что там с годовым доходом? Вот калькулятор процентили по США, с разбиением по возрасту. Здесь у ML-щиков есть шанс на реванш. В возрасте 27 лет доход в $191,205 заводит вас аж в 99-ю перцентиль! В 40 для этого надо уже $477,701. Иначе говоря, далеко не самая стремительная карьера разработчика в Долине или Нью-Йорке будет вас комфортно держать выше этого порога. Сохраняя значительную часть от этих денег, вы сможете за пару десятков лет пройтись катком по Net Worth лидерборду.
А что там в других странах? Давайте для примера рассмотрим Швецию - сакральную мечту леваков. На этом сайте есть вот такая гугл-таблица с доходами. Все люди разбиты по возрастам и по доходам на брэкеты, и в каждом пересечении написано точное количество людей. Прекрасные данные для изучения.
Анекдот про евробомжей начинается с самого разбиения - самый последний брэкет по доходам - >3М крон в год - т.е. >$268,680 - немыслимое богатство. Знаете, сколько людей до 29 лет в Швеции зарабатывает $268,680? Воздуха набрали? Сорок четыре.
Из 5.8 миллионов работающих шведов всего 8578 попадают в категорию >$268,680 т.е. это 99.8 процентиль в Швеции, и в то же время лишь 97 в Америке, в которой в 30 раз больше работающих людей.
UK устроилась посередине. Согласно данным с официального сайта, 200к фунтов (примерно та же сумма) - это 99-я перцентиль по UK, а тут живут в несколько раз меньше людей. Все цифры выше приведены до вычета налогов, которые в США сильно меньше, но это ~компенсируется разницей в ценах.
Суммируя всё выше сказанное, можно сделать лишь один вывод - если вы хотите перестать быть белкой в колесе и перейти в класс людей, которым не нужно работать для выживания, то существует очевидно оптимальная опция, и это не шведский социализм. Если вы успешный и продуктивный, то оставьте социализм лузерам - они созданы друг для друга.
@knowledge_accumulator
Мне кажется, немногие глубоко задумываются о том, в каком финансовом положении они находятся относительно других, а также о том, насколько в принципе люди в разных странах много зарабатывают.
Многие ошибочно считают финансовое состояние неважной вещью, но это травма прямиком из совка, в котором быть финансово состоявшимся - это ругательство и противоречит политике партии.
Рассмотрим понятие Net Worth - общего накопленного состояния - сумма ваших активов за вычетом долгов. На этой странице приведены 99 процентилей Household Net Worth - состояния семьи, на территории США (всего их 130млн). Если вдруг вы не осознаёте, насколько Америка охуенно богатая по сравнению с другими, то вас ждёт сюрприз.
$192,084 - это медианное состояние американской семьи, с учётом недвижимости в собственности. >65 миллионов домохозяйств могли бы себе позволить купить 2 квартиры в Москве - звучит неплохо.
$1,009,860 - это 82-я перцентиль. То есть более 23 миллионов семей-миллионеров. $13,666,778 - это 99-я перцентиль - это всё ещё больше миллиона семей! То, что вам может казаться невероятным количеством бабла, на самом деле массово распространённое в Америке явление. Более высокие квантили можно изучить здесь.
Тут есть такие же данные, разбитые по возрастным промежуткам. Здесь есть шанс поправить самооценку. До 39 лет обладание $864,340 выведет вас уже в 90-ю перцентиль, а для 99-й нужно обладать всего 4.7М долларов! Блин, как-то не сильно лучше стало, честно говоря. В моём 25-29 дивизионе $296,830 уже достаточно для 90-й, но лично я за эту черту бедности пока не перешёл.
Ладно, а что там с годовым доходом? Вот калькулятор процентили по США, с разбиением по возрасту. Здесь у ML-щиков есть шанс на реванш. В возрасте 27 лет доход в $191,205 заводит вас аж в 99-ю перцентиль! В 40 для этого надо уже $477,701. Иначе говоря, далеко не самая стремительная карьера разработчика в Долине или Нью-Йорке будет вас комфортно держать выше этого порога. Сохраняя значительную часть от этих денег, вы сможете за пару десятков лет пройтись катком по Net Worth лидерборду.
А что там в других странах? Давайте для примера рассмотрим Швецию - сакральную мечту леваков. На этом сайте есть вот такая гугл-таблица с доходами. Все люди разбиты по возрастам и по доходам на брэкеты, и в каждом пересечении написано точное количество людей. Прекрасные данные для изучения.
Анекдот про евробомжей начинается с самого разбиения - самый последний брэкет по доходам - >3М крон в год - т.е. >$268,680 - немыслимое богатство. Знаете, сколько людей до 29 лет в Швеции зарабатывает $268,680? Воздуха набрали? Сорок четыре.
Из 5.8 миллионов работающих шведов всего 8578 попадают в категорию >$268,680 т.е. это 99.8 процентиль в Швеции, и в то же время лишь 97 в Америке, в которой в 30 раз больше работающих людей.
UK устроилась посередине. Согласно данным с официального сайта, 200к фунтов (примерно та же сумма) - это 99-я перцентиль по UK, а тут живут в несколько раз меньше людей. Все цифры выше приведены до вычета налогов, которые в США сильно меньше, но это ~компенсируется разницей в ценах.
Суммируя всё выше сказанное, можно сделать лишь один вывод - если вы хотите перестать быть белкой в колесе и перейти в класс людей, которым не нужно работать для выживания, то существует очевидно оптимальная опция, и это не шведский социализм. Если вы успешный и продуктивный, то оставьте социализм лузерам - они созданы друг для друга.
@knowledge_accumulator
Есть четыре новости, две хороших и две плохих.
Хорошая — ночью состоялся пуск Starship, в котором ускоритель успешно вернулся на землю и приземлился на башню (удалось сделать во второй раз). Если я правильно понял, то траектория посадки была более экстремальной в этот раз, она оставляла меньше пространства для манёвра, а сама посадка за счёт этого стала быстрее (что экономит топливо). Во время второй фазы (после разделения ступеней) один двигатель не работал, что не критично для миссии, но он включился при торможении у земли (что не было необходимостью). Эта часть миссии полностью успешна.
Первая плохая — корабль взорвался незадолго до планового отключения двигателей. Сначала было потеряно несколько двигателей один за другим, пока не остался один из 6, после чего перестала обновляться телеметрия. Безусловно это большой неуспех миссии, так как не были пройдены важные для программы шаги: вывод макета полезной нагрузки в космос, перезапуск двигателя, вход в атмосферу. Все эти шаги уже были пройдены по несколько раз. Так как самое ценное в испытательной программе — данные, то получается что и данных было получено очень мало: связь была потеряна на девятой минуте, потом он летел сколько-то времени сам по себе и взорвался на 12й минуте.
Вторая плохая — из-за разрушения корабля несколько самолётов были вынуждены изменить траекторию полёта, а FAA написали, что обломки вышли за отведённую зону. Вероятно, это произошло из-за того, что корабль неконтролируемо летел пару минут сам (и на части двигателей). Правда SpaceX написали, что по их данным всё в пределах опасной зоны, но пока их слово слабее слова контролирующего органа, который опираясь на свои данные будет требовать полного отчёта о произошедшем. Бюрократия это всегда долго, поэтому программа откладывается на какое-то количество месяцев, что безумно грустно. Следующий полёт потенциально мог быть первым лицензированным как орбитальный (сейчас корабль чуть-чуть совсем не долетает до такой траектории) и с выводом реальных спутников, и может даже с посадкой на башню — так как корабль уже отработал посадку на воду. А теперь... очень надеюсь, что следующий пуск будет до апреля.
Ну и последняя — взрыв корабля был записан множеством туристов на островах, поэтому демо-версия начала инопланетного вторжения теперь доступна и вам!
Хорошая — ночью состоялся пуск Starship, в котором ускоритель успешно вернулся на землю и приземлился на башню (удалось сделать во второй раз). Если я правильно понял, то траектория посадки была более экстремальной в этот раз, она оставляла меньше пространства для манёвра, а сама посадка за счёт этого стала быстрее (что экономит топливо). Во время второй фазы (после разделения ступеней) один двигатель не работал, что не критично для миссии, но он включился при торможении у земли (что не было необходимостью). Эта часть миссии полностью успешна.
Первая плохая — корабль взорвался незадолго до планового отключения двигателей. Сначала было потеряно несколько двигателей один за другим, пока не остался один из 6, после чего перестала обновляться телеметрия. Безусловно это большой неуспех миссии, так как не были пройдены важные для программы шаги: вывод макета полезной нагрузки в космос, перезапуск двигателя, вход в атмосферу. Все эти шаги уже были пройдены по несколько раз. Так как самое ценное в испытательной программе — данные, то получается что и данных было получено очень мало: связь была потеряна на девятой минуте, потом он летел сколько-то времени сам по себе и взорвался на 12й минуте.
Вторая плохая — из-за разрушения корабля несколько самолётов были вынуждены изменить траекторию полёта, а FAA написали, что обломки вышли за отведённую зону. Вероятно, это произошло из-за того, что корабль неконтролируемо летел пару минут сам (и на части двигателей). Правда SpaceX написали, что по их данным всё в пределах опасной зоны, но пока их слово слабее слова контролирующего органа, который опираясь на свои данные будет требовать полного отчёта о произошедшем. Бюрократия это всегда долго, поэтому программа откладывается на какое-то количество месяцев, что безумно грустно. Следующий полёт потенциально мог быть первым лицензированным как орбитальный (сейчас корабль чуть-чуть совсем не долетает до такой траектории) и с выводом реальных спутников, и может даже с посадкой на башню — так как корабль уже отработал посадку на воду. А теперь... очень надеюсь, что следующий пуск будет до апреля.
Ну и последняя — взрыв корабля был записан множеством туристов на островах, поэтому демо-версия начала инопланетного вторжения теперь доступна и вам!
Forwarded from SpaceX (Евгения Макаренко)
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Есть четыре новости, две хороших и две плохих. Хорошая — ночью состоялся пуск Starship, в котором ускоритель успешно вернулся на землю и приземлился на башню (удалось сделать во второй раз). Если я правильно понял, то траектория посадки была более экстремальной…
UPD: в ТГ есть баг, что когда через комменты в чате отправляешь пост — он отправляется в канал. Поэтому вы видите эту картинку 👼 удалять уж не буду
UPD2: пояснение к картинке. SpaceX успешно посадили ускоритель, но не смогли достигнуть орбиты. Blue Origin успешно достигли орбиты, но первая ступень не села на баржу. Инь и ян🙏
UPD2: пояснение к картинке. SpaceX успешно посадили ускоритель, но не смогли достигнуть орбиты. Blue Origin успешно достигли орбиты, но первая ступень не села на баржу. Инь и ян
Please open Telegram to view this post
VIEW IN TELEGRAM
Inference-Time Scaling for Diffusion Models beyond Scaling Denoising Steps (сайт проекта)
Последнее время активно исследуется тема масштабирования вычислений во время инференса (применения модели). В LLM ярким событием стал анонс o1 от OpenAI, где модель могла исписать 50 страниц рассуждений вместо 5, что привело к улучшению качества внешироком наборе задач. Авторы из DeepMind решили попробовать масштабировать вычисления на инференсе для диффузионных моделей генерации картинок по текстовому запросу.
Диффузионные модели, если упрощать, работают так:
1) Сначала создается случайный шум — просто хаотичная картинка, никак не связанная с запросом (может выглядеть так, ткните картинку чтобы понять о чем речь) и моделью
2) Этот шум пропускают через модель, получают на выходе параметры распределения (например, среднее и дисперсию) другого шума, который нужно вычесть из текущего, чтобы получить более качественное изображение, соответствующее вашему запросу.
3) берут семпл из этого распределения (то есть случайным образом выбирают какое-то одно значение с учётом предсказанных выше параметров; более просто: случайный выбор значения из предсказанного моделью диапазона)
4) из текущего зашумленного изображения (на первой итерации это то, что получилось в пункте 1) вычитают то, что получилось в пункте (3); модель как бы предсказала, какой шум нужно вычесть, чтобы «очистить» изображение (поэтому называется denoising, убирание шума). Это делает картинку чуть более четкой, но пока она всё ещё далека от финального результата. На этом этапе могут применяться специальные алгоритмы, связанные с дифференциальными уравнениями, но об этом как нибудь в другой раз.
5) Обновленное изображение снова пропускают через модель, повторяя процесс. Постепенно шум убирается шаг за шагом, и через множество итераций модель выдает готовую картинку.
Прочитав это, легко сходу придумать, как именно масштабировать вычисления во время предсказания: нужно просто увеличить количество шагов! К сожалению, эта мера не так эффективна, и после относительно небольшого увеличения прирост качества генераций прекращается. Условно между 20 и 50 шагами (итерациями) вы увидите разницу, а между 100 и 200 почти наверняка нет (в некоторых случаях это и вовсе портит картинку). То есть этот метод масштабирования очень ограничен.
Поэтому авторы рассматривают альтернативные способы. Они подмечают, что существует такая вещь как черри-пикинг — это когда для одного и того же запроса одна и та же модель генерирует много картинок, а после этого для демонстрации выбирается лучшая, например, чтобы похвастаться в статье или на сайте. То есть в среднем генерации могут быть просто хорошими, но вот иногда появляется картинка красивее и качественнее — хотя казалось бы ничего не меняется (кроме случайного шума в первом пункте из списка выше).
Значит, какие-то исходные шумы более удачны, какие-то менее. Это и будет первый метод поиска для масштабирования вычислений: давайте сгенерируем N картинок из N разных шумов, затем пропустим их через отдельную модель, которая даёт оценки, и выберем лучшую. «Отдельная модель» будет называться verifier (верификатор?), она принимает на вход картинку и, опционально, текстовый запрос и выдаёт какую-то цифру, по которой и судим.
Верификаторы могут быть разные — это может быть и одна модель, натренированная оценивать эстетику изображения (такие давно есть) и не опирающаяся на текст запроса, и LLM, которой дали промпт «ну чё ты, оцени по десятибальной», и ансамбль моделей, где несколько разных независимых оценок суммируются в одну. В статье верификаторам уделяется много внимания, но я про них писать не буду — важно то, что они есть, и это существенно отличает подобный метод от, например, о1, где модель генерирует сама без опоры на внешнюю валидацию.
Последнее время активно исследуется тема масштабирования вычислений во время инференса (применения модели). В LLM ярким событием стал анонс o1 от OpenAI, где модель могла исписать 50 страниц рассуждений вместо 5, что привело к улучшению качества в
Диффузионные модели, если упрощать, работают так:
1) Сначала создается случайный шум — просто хаотичная картинка, никак не связанная с запросом (может выглядеть так, ткните картинку чтобы понять о чем речь) и моделью
2) Этот шум пропускают через модель, получают на выходе параметры распределения (например, среднее и дисперсию) другого шума, который нужно вычесть из текущего, чтобы получить более качественное изображение, соответствующее вашему запросу.
3) берут семпл из этого распределения (то есть случайным образом выбирают какое-то одно значение с учётом предсказанных выше параметров; более просто: случайный выбор значения из предсказанного моделью диапазона)
4) из текущего зашумленного изображения (на первой итерации это то, что получилось в пункте 1) вычитают то, что получилось в пункте (3); модель как бы предсказала, какой шум нужно вычесть, чтобы «очистить» изображение (поэтому называется denoising, убирание шума). Это делает картинку чуть более четкой, но пока она всё ещё далека от финального результата. На этом этапе могут применяться специальные алгоритмы, связанные с дифференциальными уравнениями, но об этом как нибудь в другой раз.
5) Обновленное изображение снова пропускают через модель, повторяя процесс. Постепенно шум убирается шаг за шагом, и через множество итераций модель выдает готовую картинку.
Прочитав это, легко сходу придумать, как именно масштабировать вычисления во время предсказания: нужно просто увеличить количество шагов! К сожалению, эта мера не так эффективна, и после относительно небольшого увеличения прирост качества генераций прекращается. Условно между 20 и 50 шагами (итерациями) вы увидите разницу, а между 100 и 200 почти наверняка нет (в некоторых случаях это и вовсе портит картинку). То есть этот метод масштабирования очень ограничен.
Поэтому авторы рассматривают альтернативные способы. Они подмечают, что существует такая вещь как черри-пикинг — это когда для одного и того же запроса одна и та же модель генерирует много картинок, а после этого для демонстрации выбирается лучшая, например, чтобы похвастаться в статье или на сайте. То есть в среднем генерации могут быть просто хорошими, но вот иногда появляется картинка красивее и качественнее — хотя казалось бы ничего не меняется (кроме случайного шума в первом пункте из списка выше).
Значит, какие-то исходные шумы более удачны, какие-то менее. Это и будет первый метод поиска для масштабирования вычислений: давайте сгенерируем N картинок из N разных шумов, затем пропустим их через отдельную модель, которая даёт оценки, и выберем лучшую. «Отдельная модель» будет называться verifier (верификатор?), она принимает на вход картинку и, опционально, текстовый запрос и выдаёт какую-то цифру, по которой и судим.
Верификаторы могут быть разные — это может быть и одна модель, натренированная оценивать эстетику изображения (такие давно есть) и не опирающаяся на текст запроса, и LLM, которой дали промпт «ну чё ты, оцени по десятибальной», и ансамбль моделей, где несколько разных независимых оценок суммируются в одну. В статье верификаторам уделяется много внимания, но я про них писать не буду — важно то, что они есть, и это существенно отличает подобный метод от, например, о1, где модель генерирует сама без опоры на внешнюю валидацию.
Так, получается саммари первого подхода:
1) сгенерировали N случайных и независимимых шумов
2) сгенерировали N картинок
3) каждую оценили верификатором
4) выбрали самую лучшую по оценке
Второй подход: а давайте ещё поисследуем локальную окрестность лучшего кандидата?
1) сгенерировали N случайных и независимимых шумов
2) сгенерировали N картинок
3) каждую оценили верификатором
4) теперь берём одну или две лучших, вспоминаем какой шум для них генерировали в начале, и берем его же, но чуть-чуть отклоняясь в сторону (K раз). Гипотеза такая, что это какой-то просто более удачный регион, в который попала генерация из первого цикла, но ведь мы наверняка выбрали не самый удачный шум из этого региона с первой попытки?
5) для новых шумов генерируем картинки
6) оценили верификатором
7) повторяем шаги 4-6 сколько хотим
Третий подход гораздо более технический, и не хочется его расписывать детально, поэтому вот TLDR: прерывают процесс генерации на какой-то итерации (скажем, после 20% шагов), и оттуда генерируют несколько продолжений, оценивают их, выбирают лучшие, отбирают их и продолжают генерцию, повторяя прерывания
Все три метода на картинке
Ешё есть четвертный метод, суть которого сводится к тому, что если верификатор — это локальная модель, то мы можем посчитать градиент аналитически, то есть прям в точности понять, как нам нужно изменить шум на входе, чтобы повысить оценку. Он тоже работает и с ним всё хорошо.
1) сгенерировали N случайных и независимимых шумов
2) сгенерировали N картинок
3) каждую оценили верификатором
4) выбрали самую лучшую по оценке
Второй подход: а давайте ещё поисследуем локальную окрестность лучшего кандидата?
1) сгенерировали N случайных и независимимых шумов
2) сгенерировали N картинок
3) каждую оценили верификатором
4) теперь берём одну или две лучших, вспоминаем какой шум для них генерировали в начале, и берем его же, но чуть-чуть отклоняясь в сторону (K раз). Гипотеза такая, что это какой-то просто более удачный регион, в который попала генерация из первого цикла, но ведь мы наверняка выбрали не самый удачный шум из этого региона с первой попытки?
5) для новых шумов генерируем картинки
6) оценили верификатором
7) повторяем шаги 4-6 сколько хотим
Третий подход гораздо более технический, и не хочется его расписывать детально, поэтому вот TLDR: прерывают процесс генерации на какой-то итерации (скажем, после 20% шагов), и оттуда генерируют несколько продолжений, оценивают их, выбирают лучшие, отбирают их и продолжают генерцию, повторяя прерывания
Все три метода на картинке
Ешё есть четвертный метод, суть которого сводится к тому, что если верификатор — это локальная модель, то мы можем посчитать градиент аналитически, то есть прям в точности понять, как нам нужно изменить шум на входе, чтобы повысить оценку. Он тоже работает и с ним всё хорошо.
Авторы получают вот такие картинки, здесь замеряется 4 метрики, про которые рассказывать не буду.
По оси OX вы видите суммарное количество итераций в генерации (NFE, number of function evaluations). Например, 8 раза сгенерировать по 50 шагов — это 400 шагов. А можно 2 раза по 200, количество вычислений то же, а качество может быть хуже или лучше.
Серые линии — это масштабирование инференса за счёт увеличения количества итераций в диффузии. Как я писал выше, после какого-то значения количества шагов качество не растёт (на последней метрике даже падать начинает). Добавление поиска одним из методов выше очень существенно растит все метрики при неизменной модели.
По оси OX вы видите суммарное количество итераций в генерации (NFE, number of function evaluations). Например, 8 раза сгенерировать по 50 шагов — это 400 шагов. А можно 2 раза по 200, количество вычислений то же, а качество может быть хуже или лучше.
Серые линии — это масштабирование инференса за счёт увеличения количества итераций в диффузии. Как я писал выше, после какого-то значения количества шагов качество не растёт (на последней метрике даже падать начинает). Добавление поиска одним из методов выше очень существенно растит все метрики при неизменной модели.
Картинки! (лучше открыть статью и листать там в конце)
Как читать каждую строчку:
— первые 3 изображения: это генерации без поиска (брали первый попавшийся случайный шум), с увеличивающимся количеством шагов
— вторые 3 изображения: лучшее (согласно верификаторам) изображение с применением масштабирования поиска на инференсе
Как видно по первой картинке, метод работает для разных моделей, и не требует никакой тренировки (если верификатор уже есть) — просто нужно больше генераций.
На второй и третьей картинах разница между третьим изображением (30 шагов) и пятым (960) по вычислениям — в 32 раза. А с шестым в 96.
На последней — такая же, но шагов другое количество (28 и 896/2688).
====
Что значит на практике:
— скоро во многих сервисах ожидаю появления VIP-версии генераций, которые стоят дороже. Скорее всего какой-то вариант первого способа масштабирования уже есть сейчас (сгенерируй K и выбери 1-2 лучших), но тут предлагается ещё 3 способа, которые легко запрограммировать
— вероятно, рост в цене будет не в 30-90 раз (хотя для профессиональных моделей вполне), так как есть интересная статья про LLM, где показывается, что сделать больше генераций дешёвыми и маленькими моделями — лучше, чем меньше генераций большими и дорогими
— такой подход применим и для видео, где стоимость контента может быть существенно выше. Интересно будет увидеть такую услугу за $100-200 за минуту качественного видео в 2025м.
— тренировать классифиактор/ранжировщик, который выбирает лучшие картинки из набора (или не обязательно картинки, ведь можно делать оценку шума прямо в середине процесса генерации) — очень важно, ждем а) моделей б) статей
Критика статьи:
— авторы везде замеряли автоматические метрики, и (иногда) их же и оптимизировали, так что не удивителен рост. Жаль, что нет хотя бы одного замера Эло-рейтинга на реальных людях :(
Как читать каждую строчку:
— первые 3 изображения: это генерации без поиска (брали первый попавшийся случайный шум), с увеличивающимся количеством шагов
— вторые 3 изображения: лучшее (согласно верификаторам) изображение с применением масштабирования поиска на инференсе
Как видно по первой картинке, метод работает для разных моделей, и не требует никакой тренировки (если верификатор уже есть) — просто нужно больше генераций.
На второй и третьей картинах разница между третьим изображением (30 шагов) и пятым (960) по вычислениям — в 32 раза. А с шестым в 96.
На последней — такая же, но шагов другое количество (28 и 896/2688).
====
Что значит на практике:
— скоро во многих сервисах ожидаю появления VIP-версии генераций, которые стоят дороже. Скорее всего какой-то вариант первого способа масштабирования уже есть сейчас (сгенерируй K и выбери 1-2 лучших), но тут предлагается ещё 3 способа, которые легко запрограммировать
— вероятно, рост в цене будет не в 30-90 раз (хотя для профессиональных моделей вполне), так как есть интересная статья про LLM, где показывается, что сделать больше генераций дешёвыми и маленькими моделями — лучше, чем меньше генераций большими и дорогими
— такой подход применим и для видео, где стоимость контента может быть существенно выше. Интересно будет увидеть такую услугу за $100-200 за минуту качественного видео в 2025м.
— тренировать классифиактор/ранжировщик, который выбирает лучшие картинки из набора (или не обязательно картинки, ведь можно делать оценку шума прямо в середине процесса генерации) — очень важно, ждем а) моделей б) статей
Критика статьи:
— авторы везде замеряли автоматические метрики, и (иногда) их же и оптимизировали, так что не удивителен рост. Жаль, что нет хотя бы одного замера Эло-рейтинга на реальных людях :(