Telegram Group Search
Я там тоже буду (не то, чтобы это был неожиданный поворот). Забегайте поболтать и послушать интересные доклады
Forwarded from ODS Events
Привет! Как ваши майские?

📢 Мы вовсю готовимся к встрече с вами и с радостью анонсируем регистрацию на еще один мощный офлайн — Data Fest 2025 в гостях у X5 Tech!

🧠 В программе:
— Доклады от экспертов хоста площадки с секцией Data и ML в Retail (X5 Tech) - поговорим о том, как данные меняют ритейл и не только
— Нейтральные секции: Advanced LLM, ML in Music — обсудим, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества

🌟 Почему стоит прийти?
— Реальные кейсы, живые люди, честные обсуждения
— Зона для холивара на острые и актуальные темы с экспертами Х5 Tech
— Комьюнити, в котором можно говорить свободно
— И, конечно, пиво, пинг-понг и отдых после секций 🍻

📍 Где, когда? 1 июня, Москва
Регистрация по ссылке. Мест немного — успей зарегистрироваться по ссылке!
Притча

Старый опытный CPO решил уйти из компании, чтобы посвятить свою жизнь ведению продуктовых курсов и Телеграм каналу. Собирает он своих трёх своих лучших продактов: «Ребята, пришла пора выбрать из вас моего преемника».

Приказал он Senior Product Manager с 1 годом опыта сделать касдев да сторипоинты посчитать. Неделю не было продакта видно, приходит с наполовину сделанной задачей и презентацией по выполненным OKR.

Приказал CPO своему Head of Product продолжить работу и сделать кликабельный прототип да таски на разработку поставить. Продакт поставил три таски в джиру: на бекенд, на фронтенд и на QA. В каждой поставил приоритет ургент, написал что все описал в слаке, а по всем вопросам к первому продакту.

Дошёл черёд до Group Head of Product. Ему выпало релиз принимать да what’s new для билда писать. Уточнил он статус проекта, написал bugfixes & stability improvements да свалил в отпуск потому что выгорел.

«Нихуя мы с вами опять говна наделали», сказал CPO.
​​#random

Внезапный пост о божественных круглых камнях.

Увидел в одном аниме (на а откуда же еще черпать знания об окружающем мире?) про локальную традицию префектуры Яманаси в Японии. Там есть так называемые Маруиси-гами (丸石神, если мне верно выдал персплексити японский вариант) - круглые камни, которым местные поклоняются с давних времен. Собственно, название так и переводится - "сферические каменные боги".

Абсолютно согласен с древними японцами. Зачем поклоняться (или бояться) ИИ, если есть такие клевые круглые камни (да и откуда им в древности знать про эти ваши ИИ)? Вот пройдут века, ИИ уйдет, а клевые круглые камни останутся.

P.S. Один из самых рандомных #random в канале. Но факт клевый (как и камни). А я по старой ЧГКшной привычке люблю прикольные факты (а прикольные камни я собирал еще с детства).
Forwarded from Борис опять
# 4 часа

Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).

Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.

Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.

4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.

Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.

В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.
Раздаю интервью, хехе. Но раз спрашивают, отчего бы и не поделиться мудростью (ну или быть тем примером, когда "не надо так", тут уж как повезёт ;))
#Типичный_айтишник этой недели Артем успел попробовать себя во многих направлениях работы. Его пример – доказательство того, что каждое испробованное направление становится бесценным опытом и открывает новые возможности.

- Кто ты и что делаешь?
Меня зовут Артем Ерохин, я — ведущий инженер нейронных сетей в X5 Tech. Но реально я скорее ближе к Lead DS и занимаюсь совершенно разнообразными задачами (выступления, внутреннее консультирование, найм, преподавание и т.д.).

- Как ты начал делать то, чем занимаешься сейчас?

У меня стандартный путь. Начал с физмат класса в школе, потом факультет прикладной математики, потом аналитика, из нее в ML. В какое-то время я серьезно интересовался маркетингом, поэтому начинал карьеру с маркетинговой аналитики и BI, но за год разочаровался в области и пошел работать в другое место. Вообще, опыт у меня получился разнообразный. Из интересного — я полтора года работал в научно-исследовательском и проектном институте городского транспорта Москвы, так что внес свой небольшой вклад в развитие города.
В менеджмент же меня привели как мои увлечения, так и навыки. Мой подход к работе естественным образом из раза в раз приводит к тому, что я беру на себя некоторую ответственность и начинаю так или иначе управлять процессом. Вроде и начинаешь с работы руками, а потом раз — и ты уже управляешь командой, решая уже более высокоуровневые задачи.

- Пригодились ли тебе навыки из не математических областей?
На фоне они всегда со мной. Оно просто есть и просто включается при необходимости. Наверное, больше всего пригодилось увлекечение кейсами и предпринимательством.
Вообще, я не склонен выделять какие-то области замкнутые, всегда есть пересечения и аналогии. А уж в областях между науками всегда кроются самые интересные вещи.

- Что самое интересное в работе?
Самое интересное — выяснять новое. Еще лучше, если это новое еще и необычное или неожиданное. Ну и еще мне нравится болтать, потому люблю выступать, делиться опытом и экспертизой. В 2022 и 2023 даже был лучшим ментором ODS.

- А самое неинтересное?
Самое неинтересное — встречи, рутина, какие-то скучные, но длинные коммуникации. Еще хуже, если постоянно кто-то дергает и выбивает из рабочего ритма. Тогда я быстро "разряжаюсь", становлюсь усталым и раздражительным.

- Расскажи нам интересную историю с работы.
Не так давно я по работе ездил на производство готовой еды (которая сейчас продается в Пятерочках — сырники, паста, сэндвичи, вот это все). И чтобы зайти на производство, пришлось облачиться чуть ли не в защитный костюм: были перчатки, халат, шапочка, маска, отдельная обувь. Потом еще пришлось несколько раз помыть руки, пройти через огромную систему обдува. В общем, процесс был непростой. Как будто в операционную собрался. Ждал, что где-то в подвале есть инопланетяне в холодильнике, но это не Зона 51, конечно. В холодильнике только колбаса и сыр 😉

- Совет про успешный успех?
Не верить в успешный успех 😉 А если серьезно, то лучше отслеживать неожиданные возможности, стараться участвовать в разных активностях и знакомиться с разными людьми. А еще заранее продумывать будущие шаги (в карьере и жизни в целом). И иногда (всегда) планы не срабатывают, потому стоит быть готовым этот план менять, либо иногда быть чуть более расслабленным, если понимаешь, что пока информации для планирования слишком мало и какое-то время придется ее пособирать.

-Расскажешь нам еще что-то про себя?
Еще расскажу про хобби. Я увлекаюсь драматургией, сценаристикой, писательским ремеслом. Прошел уже с десяток курсов по этим темам (например, недавно написал первую пьесу на курсах). Очень интересно, когда история из разрозненных фрагментов формируется в нечто единое. Еще приятнее, когда это публикуют.
Это я вообще к чему? Лучше иметь хобби, иначе можно выгореть. Особенно, если вы весь день работаете, потом еще изучаете что-то по работе, а на выходных садитесь смотреть лекции Стэнфорда. Не надо так 😉
​​#conference

Прошел жаркий период мероприятий. За последние 2 недели их у меня было аж 4 штуки. Пора подводить итоги и выдыхать.

Немного про мероприятия:

1. Коллеги позвали на "прожарку AI". Там за готовкой мы с участниками South Hub обсуждали "горячие" темы в области AI. Формат необычный, но не без минусов. Отвлекаться чревато последствиями - я себе в первые 10 минут готовки палец порезал (впрочем, я очки опыта вкладывал в интеллект, а не в ловкость, может проблема в этом). Пообщаться было прикольно, да и формат был весьма камерным + уровень участников весьма хорош, редко удается пообщаться с таким количеством директоров разом ;)
2. Был наш ИИ Demo Day в рамках X5. Рассказали о последних достижениях подразделения, ответили на вопросы коллег, подняли понимание о том, что мы делаем и кто все эти люди (ну, я очень на это надеюсь). В общем, получилось полезно (а еще весьма лампово, что тоже важно).
3. Сходил на оба дня Aha'25. На одном даже выступил (фото как раз оттуда). После доклада еще продуктивно пообщался и ответил на вопросы, которые не успел задать после доклада. А еще допытывал коллег из Сбера на предмет бенмаркинга LLM (вероятно, даже немного задолбал околофилософскими вопросами "а как вообще набором цифр описать, насколько хорошо LLM работает и возможно ли это в принципе?".
4. Закончилось все днем X5 на DataFest. Было весьма немало народа (человек 300-400 по моим оценкам, может и побольше). Активно общался, много интересных тем поднималось в обсуждениях, что весьма приятно. На DataFest тоже выступил, доклад зашел (хоть это и повтор с митапа, но многие его не слышали, так что все ок).

Какие из всего этого выводы:
1. LLM - горячая тема практически везде. Не особо удивлен, хайп продолжается.
2. Клево, когда сообщество обменивается мнениями. Например, мой доклад на aha - скорее призыв к обсуждению в рамках сообщества, ибо одна голова - хорошо, а много голов - хтонический Лавкрафтианский монстр лучше.
3. Клевый мерч привлекает на стенд и позволяет "зацепить" человека еще и пообщаться (капитанский вывод, но работает же). Одним из факторов мотивации тусоваться на датафесте был еще и корпоративный мягкий енот (спойлер - я его получил и без приключений передал в руки дочки, она довольна).
4. Мероприятия - дело энергозатратное. Много общения, много эмоциональных сил затрачивается (если, конечно, хочешь делать хорошо). Потому сейчас буду немного "отмокать".
5. Личный бренд - штука рабочая. Меня (и моих коллег) уже узнают по прошлым докладам и материалам (в позитивном ключе, конечно). Одну мою коллегу даже специально искали на датафесте, чтобы пообщаться именно с ней, т.к. очень понравилось одно из предыдущих выступлений (вот ее канал с прикольным названием "LLM и гречка").

В общем, я весьма доволен, но устал. Потому пока буду восстанавливать силы, т.к. летом и осенью будут еще мероприятия, так что stay tuned, так сказать.
Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
#llm #paper

Прочитал на досуге статью "Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models".

Достаточно короткая статья. Идея тоже обычная, но хорошо, что ее явно вытащили и прописали, т.к. часто вроде у всех это крутится где-то на границе сознания, а вот когда явно кто-то написал или проговорил - все становится на свои места.

Итак, в чем смысл стать? Авторы рассматривают типичный процесс бенчмаркинга LLM, а именно засилие "тестов" в бенчмарках. Что неплохо, но просто дает ряд циферок, но не отражает всей сложности процесса оценки и проверки качества работы LLM.

Потому авторы предлагают трехступенчатый процесс оценки LLM (Benchmarking-Evaluation-Assessment), который сравнивают с медицинским осмотром. Получается такой подход:
1. Benchmarking. Его мы не откладываем в сторону, но считаем первым шагом. Условно, оцениваем какие-то базовые параметры (как на осмотре - давление померить, общий анализ крови сделать и вот это все). По факту смотрим, где есть проблемы;
2. Evaluation. На основе выявленных проблемных зон делаем более глубокие исследования (медицинский аналог - более сложное исследование выписывается, например, УЗИ);
3. Assessment. Пытаемся интерпретировать результаты детальных исследований с помощью "модели-доктора", вместе с которой разрабатывается "план лечения" (то есть, направления и шаги по исправлению проблем на прошлых шагах).

В итогу, много где так и работает, просто это формально не фиксировали в таком процессе. Так что заслуга авторов тут, как я сказал, именно в том, что вытащили общую идею на свет и формально описали.

Но, на самом деле, есть и вопросы к такому формату:
1. А заметим ли мы важные проблемы на первом этапе (вроде в анализах все ок, а челу все хуже и хуже)?
2. Как подобрать эти более предметные исследования? Ок, модель на чем-то не очень хорошо справляется, но как мне набрать данные, чтобы более детально понять проблемы в работе LLM.
3. А судьи кто? Ок, человек может что-то попробовать понять (но с интерпретацией могут быть вопросики), а если использовать именно "модель-доктора", то на чем ее учить и как понять, что она корректно предлагает решение?

Итог.

Хорошо, что написали, но пока выглядит больше "за все хорошее и против всего плохого". Надеюсь, что авторы накинут в будущих работах еще деталей по пунктам, может тогда будет полезнее.
💊 Интенсивность имеет значение: как оценить эффект, если воздействие имеет разную силу?

Недавно мы обещали рассказать вам, как оценивать эффекты, если воздействие непрерывное -- пришло время этой темы!

Обычно для оценки влияния политик или другого воздействия используется метод разность разностей (Difference-in-Differences, DiD), но он работает хорошо, когда можно разделить наблюдаемые единицы на две группы: тех, кто подвергся воздействию, и тех, кто нет

В реальности же воздействие часто имеет не бинарную, а непрерывную природу — то есть разную интенсивность (dose):
🟤уровень загрязнения воздуха в регионах
🟤доля пациентов с ДМС в больнице
🟤количество символов в посте 😁 и т.д.

Во всех этих случаях вопрос звучит не "было ли воздействие?", а "насколько интенсивным оно было?"

🆕 Не скоро дело делается... Спустя 5 лет эти вопросы снова подняли в своём препринте известные исследователи DiD — Брэнтли Кэллоуэй (Университет Джорджии), Эндрю Гудман-Бейкон (Федеральный резервный банк Миннеаполиса) и Педро Сант'Анна (Университет Эмори) (Callaway et al., 2025)
Авторы переосмысливают классический DiD и показывают, что при непрерывном воздействии привычные методы могут давать некорректные оценки

В чём проблема?
Во многих прикладных работах исследователи используют стандартную модель с фиксированными эффектами (TWFE) и включают переменную интенсивности воздействия, умноженную на бинарную переменную пост-периода. Но такая оценка:
🟤не равна среднему причинному эффекту
🟤не отражает отклик на изменение интенсивности
🟤может быть смещенной из-за гетерогенных эффектов в разных группах и при разных интенсивностях
🟤складывается из эффектов при разных уровнях интенсивности с непрозрачными, иногда отрицательными весами

Авторы показывают, что даже в простой ситуации 2×2 DiD (две группы, два периода), коэффициент TWFE не имеет корректной причинной интерпретации, если интенсивность воздействия варьируется

Что и как нужно оценивать на самом деле?
Авторы вводят два типа причинных эффектов:
🟤Уровневый эффект (Level Effect) — показывает, как изменяется результат при переходе от нулевой интенсивности к заданной
🟤Причинный отклик (Causal Response) — описывает, как результат реагирует на небольшое изменение интенсивности. Это аналог производной или эластичности, но в причинном смысле

Что делать?
🟤Если вы хотите понять, что даёт воздействие при конкретной интенсивности — ищите уровневый эффект
🟤Если хотите знать, как результат реагирует на рост интенсивности — ищите причинный отклик
🟤Если нужно усреднённое значение по всей выборке — считайте агрегаты с корректными весами

Какие нужны предпосылки?
🟤Параллельные претренды (Parallel Trends) - предположение, что без воздействия все группы развивались бы одинаково
→ Позволяет идентифицировать уровневый эффект при заданной интенсивности
🟤Сильные параллельные претренды (Strong Parallel Trends) - предположение, что результат при одинаковой интенсивности развивался бы одинаково у всех групп
→ Необходимо для корректной оценки причинного отклика

Действительно разные результаты? Medicare и капиталоёмкость
🟤Дарон Аджемоглу и Эми Финкельштейн (Acemoglu, Finkelstein, 2008), используя TWFE показали, что после отмены трудовых субсидий по Medicare больницы стали больше инвестировать в капитал
🟤Авторы новой статьи применили свой подход к тем же данным — и получили иные результаты: уровень эффекта оказался на 50% выше, чем в TWFE; причинный отклик был положительным при низкой интенсивности, но негативным при высокой
🟤Это означает, что TWFE не просто занижал эффект, но и менял его знак при попытке оценить маржинальный отклик

🖥 Открытый пакет contdid
Авторы статьи разработали R-пакет contdid. Это пока альфа-версия, но она уже поддерживает непрерывное воздействие, ступенчатое воздействие (staggered adoption), агрегации по интенсивности и времени
🔗 Документация пакета: Github и RD Packages

Заинтересованным в теме предлагаем также заглянуть в препринт (Zhang, 2025), где автор пытается решить похожую задачу с помощью double/debiased machine learning

#канал_обозревает
#канал_рекомендует
@causal_channel
Please open Telegram to view this post
VIEW IN TELEGRAM
#random

Пока ездил в Псков и Великий Новгород и ходил по музеям, мне в голову пришла забавная мысль. Средневековые художники часто не видели зверей из других частей света, которых рисовали в бестиариях, а только лишь слышали описания (причем, далеко не всегда точные описания и не всегда существующих животных). Потому я решил сделать симуляцию такого художника.

Итак:
1. Попросил perplexity собрать средневековые описания животных из книг (как настоящих, так и выдуманных);
2. Написал коротенький промпт для генерации изображения в средневековом стиле (пришлось тут поиграться с промптами, чтобы модель не вспоминала реальное животное, но она все равно вспоминает немного);
3. Сгенерировал изображения по описанию из бестиариев.

Кстати, будет еще забавнее, если при генерации текста LLM будет галлюцинировать. Это еще более подходящий опыт (но это оставлю самой LLM). Как будто средневековый автор что-то где-то еще читал и добавил эти обрывки воспоминаний в свой процесс рисования зверя в бестиарии.

Результаты в посте. Попробуйте отгадать, что за звери изображены. Ответы будут завтра.

P.S. На первой картинке справа мандрагора на дереве (а то мало ли, что тут кто навоображает).
2025/07/01 06:17:40
Back to Top
HTML Embed Code: