Telegram Group Search
Big Ledovsky | блог DS лида
А вот и сам приз. Он будет разыгран случайно среди прошедших обратную связь. Буду рад вручить его лично в Москве или отправить доставкой по России 🙂
Спустя несколько месяцев приз нашел победителя! Андрей вернулся из Черногории 🙂

PS. Помимо того, что Андрей отличный аналитик, он настоящий гик. Может затереть за днд и за фантастику. Но Лю Цысиня еще не читал. Так что мой случайный скрипт неплохо попал.

А я тем временем слушаю уже третью книгу. Однозначно одна из лучших фантастик, что я читал.

#worklife
Пришло время сделать вводный пост про этот канал. Оказалось, что я пишу сюда уже два года. Определенно пора. Мой стиль и видение канала поменялись с того времени. Нужно будет как-нибудь об этом рассказать.
Привет и добро пожаловать!

Меня зовут Саша Ледовский. Я Data Science инженер с ~10 годами опыта в данных и аналитике. Работаю в Авито, где руковожу DS командой и отвечаю за разработку алгоритмов продвижения. До этого был Сбер, IBM, стартапы, ШАД и даже управленческий консалтинг.

Подборка постов, с которых начать меня читать

Про работу и чем я вообще занимаюсь: Рабочие итоги 2024 года часть 1 и Рабочие итоги года часть 2

Лайфстайл: Впечатления от месяца жизни в Бангкоке и Про настольный теннис

Карьера: Выбор, который обнаруживаешь в середине карьеры

Продуктивность. Гайд по системе заметок LogSeq и Как не нужно планировать год
Big Ledovsky | блог DS лида pinned «Привет и добро пожаловать! Меня зовут Саша Ледовский. Я Data Science инженер с ~10 годами опыта в данных и аналитике. Работаю в Авито, где руковожу DS командой и отвечаю за разработку алгоритмов продвижения. До этого был Сбер, IBM, стартапы, ШАД и даже управленческий…»
Какое-то время назад я писал про тренировки по настольному теннису в Авито. Сегодня вот наиграл на 3е место в персональном турнире ЛЧБ (Лиге чемпионов бизнеса). Рейтинг был примерно до 200

Один матч у меня был супер эмоциональный. Играли с парнем из VK, и он был прям хорош. Я проигрывал 0-2 по сетам и 8:10 в 3м. Накал страстей был огромным. Противник начал кричать при забитых мячах. Я тоже завелся и тоже начал кричать. Короче вытащил я матч просто каким-то чудом.

На фото с тренером Климом ❤️

Пасхалка для Саши Ж ждем появления команды Lamoda 😅

#lifestyle
Мои сильные и слабые стороны

То тут, то там вижу обсуждения про то, как отвечать на собеседованиях на вопрос о сильных и слабых сторонах. Очевидно, что не нужно говорить глупости вроде

"ваши слабые стороны? о, вы знаете, я трудоголик.."
"ваши сильные стороны? коммуникабельный"

Отвечайте какие-нибудь социально правильные ответы и все. Но вообще вопрос дурацкий.

Дело не в том, что человек не ответит искренне. Вопрос просто гораздо более сложный и глубокий, чем намерение человека, который его задает. Это как спросить на собесе про детские травмы человека - так же не делают? Да и вообще не так просто узнать о своих сильных и слабых сторонах

Я дошел до своих не сразу, сильно после начала карьеры. Я решил, что поделюсь с вами одним своим недостатком и одной сильной стороной, чтобы вы поняли направление мыслей.

💎 Слабая сторона. Я плохо думаю и принимаю решения в условиях нехватки времени и условиях стресса.

Принять это было непросто. Вроде бы я получал хорошие оценки в школе и успевал за отведенное время решать контрольные. Осознание пришло со временем. У меня более развит медленный логический мозг, и я неохотно включаю быстрый интуитивный. Есть любопытный пример с компьютерными играми. Я всегда зависаю на этапе выбора класса персонажа. Типа варвар или амазонка. Могу пару часов потратить на чтение форумов и просмотр видео в ютубе. Не могу просто так взять и выбрать. Короче, в спецназ таких как я брать не нужно)

💎 Сильная сторона. Умение хорошо фокусироваться (это еще называют deep focus)

Эту сильную сторону мне тоже не сразу удалось понять. Дело в том, что я не умею заставлять себя работать по расписанию. Мне сложно поставить таймслот под задачу и эффективно над ней поработать. Я буду отвлекаться, могу вместо задачи начать настраивать горячие клавиши на компьютере итд. Но оказалось, что когда я все-таки погружаюсь в задачу, то могу концентрированно работать очень очень долго. Гораздо больше, чем 3-4 часа, про которые говорят эксперты. И в целом, у меня получается входить в нужное состояние достаточно часто, чтобы успевать сделать много всего.

Знаете ли вы, какие у вас сильные и слабые стороны?

#productivity
Please open Telegram to view this post
VIEW IN TELEGRAM
В эти выходные открыл сезон походов. Мы съездили на Ладогу с ночевкой. Выложил немного сторис, посмотрите кому люпытно 🙂

Для меня походы - это в первую очередь переключение головы. Жизнь в походе имеет совсем другой уклад. Вы приспосабливаетесь к необычным условиям, учитесь наслаждаться простыми вещами.

Мне кажется, что такое переключение улучшает умственные способности и позволяет получить лучшие результаты в работе.

#lifestyle
Леша написал пост про плюсы и минусы дата-дривен культуры. Пост во мне очень отозвался.

Если честно, я так и не определился для себя, где находится разумный баланс между обоснованными решениями и полным параличом сделать хоть что-нибудь.

Однако могу сказать, что паралич принятия решения возникает и без data-driven подхода. Это скорее вопрос наличия у людей достаточных полномочий и отсутствия страха наказания за ошибки.

#management
Какие стороны в первую очередь развивать - сильные или слабые?

Обсуждали эту тему с коллегами в пятницу после обеда, и я решил, что стоит поделиться своим мнением.

Правильного ответа, конечно, нет. Однако принято считать, что нужно концентрироваться на развитии сильных сторон. Я думаю, такой взгляд поверхностный, и нужно смотреть на временной масштаб.

На горизонте всей жизни я согласен, что стоит концентрироваться именно на 💪сильных сторонах. В какой-то момент вам нужно понять, что у вас получается хорошо 🥷, выбрать подходящий карьерный трек и начать бить в одну точку. И успех неизбежно придет. Может быть вы хорошо делаете креативную работу, может быть располагаете к себе людей, а может быть у вашей семьи есть связи. Лично я окончательно сориентировал себя только в 24 года, когда перешел из управленческого консалтинга в data science. Тогда я понял, что моя сильная сторона - сложная творческая инженерная работа, и именно в DS я смог по-настоящему раскрыться.

Однако если опуститься с многолетнего горизонта на масштаб развития сотрудника в рамках конкретной позиции в компании, то наоборот нужно развивать слабые стороны 👶. На примере дата сайнтистов. Если вы отлично разбираетесь в машинном обучении, но плохо доносите свои мысли, то ваш рост будет ограничен. Если вы классно проводите исследования в ноутбуках, но с трудом пишете код в прод - ваш рост тоже будет ограничен. И так далее.

Есть такая концепция, как бочка Либиха из школьного курса биологии. Развитие организма прежде всего зависит от фактора, присутствующего в наименьшем количестве. Думаю, что это работает и в карьере.

🔜Какое мнение у вас?

#worklife #productivity
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет! Сегодня будет первый взрослый кросс-пиар на моем канале 💪

Хочу рассказать про канал ML Advertising . Женя - Senior DS во француской Adtech компании Teads в Supply Side Platform. Он делал автобиддинг, CTR модели и многое другое, похожее на то чем занимаемся мы.

Почему я читаю Женин канал. Дело в том, что хоть я и работаю в сфере Adtech, я нахожусь внутри одной платформы, Авито, которая делает продвижение внутри себя. Но на самом деле сфера интернет-рекламы гораздо больше и вне платформ есть целый огромный мир рекламных сеток и так называемых DSP (demand side platform) и SSP (supply side platform).

Суть DSP и SSP, что SSP размещает баннеры на сайтах ее клиентов и закупает рекламу у DSP. Клиенты DSP - это рекламодатели, которые заводят в DSP бюджет на рекламные кампании. DSP пытается разместить рекламу на разных SSP, участвуя в рекламных аукционах. Такая получается интересная биржа.

Женя пишет как эта рекламная индустрия работает изнутри и про ML под капотом. И на самом деле это очень интересная и труднодоступная инфа 💎. Оставлю небольшую подборку постов. Подписывайтесь)

Введение в Ad Tech
SSP
Про работу Cookies в рекламе
Про биддинг в реальном времени
Что такое Header Bidding
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем привет!

Я подумал, что начну новый цикл постов, про data science. Когда зимой я проводил опрос, многим это было интересно.

Но дело в том, что мне не хочется писать про "5 способов отбора признаков". Во-первых, это не мой формат (блог должен быть интересен всем, не только инженерам). Во-вторых, мне самому это не очень интересно. В третьих, такого контента уже много и без меня.

Новые посты будут про верхнеуровневые точки зрения по ряду вопросов, связанных с data science и аналитикой. То, что я пропустил через себя, сочетая внутри две очень разные стороны: инженера, которому хочется делать интересные задачи и разработать что-нибудь значимое, и менеджера, который хочет принести бизнес-результат.

Надеюсь, темы вас зацепят и может быть побудят пообщаться в комментариях.
Почему у статистики не лучшие времена

Мое наблюдение: машинное обучение и нейронные сети стремительно развиваются, а статистика как будто движется по спирали и падает в состояние хаоса 📉🔥. Конечно, известные теоретические результаты не потеряли актуальности. Однако с точки зрения применения все очень и очень запутано.

Во-первых, мы перешли в эпоху больших данных. Во-вторых, сильно расширилась область применения статистики.

В старых областях, например в медицине и биологии 💊, есть устоявшиеся дизайны экспериментов и наборы методов. У научных журналов из этих областей есть гайдлайны по статистическому анализу (пример из Clinical Neurophysiology, в котором я публиковался, когда занимался ML в Neuroscience).

В случае бизнеса все не так. На мой взгляд стабилизировался только подход к проведению базовых интерфейсных АВ-тестов в интернет компаниях с достаточно большим количеством трафика. Дальше начинаются сложности 🛒. Методы повышения чувствительности тестов и различные дизайны описываются в научных статьях и обсуждаются на конференциях. Тут каждая компания ведет свою разработку, единственного правильного решения нет. Кстати, Антон недавно рассказывал про нашу систему сплит-тестов на Датафесте. Очень горжусь, что мы ее разработали 💪, рекомендую посмотреть, если вам интересна область экспериментов.

В связи с появлением новых методов возникает другая проблема статистики - отсутствие объективного контроля. Нельзя явно проверить ошибся ли статистический тест или нет. Поэтому статистические методы нужно муторно валидировать на тестовых датасетах, а это тоже сложный процесс.

В итоге аналитики и ds-ы мечутся между большим наборов методов 🥳 которым не понятно, можно ли доверять?

Поэтому я думаю, что статистика находится не в лучшей форме 😳. Она ждет появления новых стандартов и стабилизации.

Что думаете?

#tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Разбор доступным языком конкурса по решению олимпиадных задач по математике с помощью нейросетей

Хочу объяснить доступным языком победное решение с прошедшего недавно завершившегося соревнования на Kaggle AI Mathematical Olympiad. Andrej Karpathy говорил, что если проводить параллели с работой мозга, то текущие LLM - это скорее быстрое интуитивное мышление, а вот медленное логическое мышление AI пока не умеет. И как раз решение математических задач - путь к медленному мышлению.

Победное решение смогло решить 29 задач из 50. Результат очень крутой. Сейчас расскажу как это решение устроено.

💎 Решение - это не одна нейросеть, а достаточно сложная система, построенная вокруг нейросети. Опять сошлюсь на Karpathy - LLM это как процессор в компьютере. В качестве нейросети-процессора взяли некую LLM DeepSeekMath-7B, созданную для решения математических задач. Нейросеть дообучили, чтобы она генерила решения в виде текстового ответа плюс код на питон (основано на работах 1 и 2).

💎 Как используется базовая модель. Над моделью реализуется подход Chain of Thoughts. Сеть прогоняют на своих же ответах несколько раз. Т.е. подали на вход задачу, сеть сгенерировала текст ответа и код. Код запускается и его вывод добавляется к ответу (если выполнение выдало ошибку добавляется код ошибки). Ответ добавляется ко входу и все вместе опять подается в нейросеть.

💎 Как решение доводится до стабильного результата. Ответы LLM на один и тот же вопрос отличаются от раза к разу. Поэтому стабильный результат получается за счет того, что Chain of Thought запускается 48 раз и после этого выбирается самый частый ответ.

Решение очень круто описано, выложены модели и код. У меня родилась идея, что можно устроить ML тренировку - реализовать часть с Chain of Thoughts с нуля.

#tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Возвращаю рубрику мемов) 💎

#memes
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока авторы других каналов хайпуют очередными новостями из мира LLM, у меня опять контент из походов) Кому интересно, заглядывайте в истории 🙂

#lifestyle
Мой хобби-проект - Fast Food Memes bot

Пришло время рассказать про мой хобби проект. Может быть вы слышали про Fast Food Memes бота 😄, который делает Даня. Бот рекомендует мемы в формате тиктока: вы получаете мем и ставите лайк или дальше. Я присоединился к проекту улучшать систему рекомендаций. Мне хотелось пощупать новую задачу и получить опыт с рекомендациями, отличающимися от моей работы в Авито.

Первые неудачи

На момент старта в боте работало несколько алгоритмов, которые основывались на ранжировании по лайк рейту мемов (средний процент лайков). Первоначальной идеей было обучение коллаборативной фильтрации на лайк рейт. Это когда вам рекомендуют мемы, которые понравились пользователям, похожим на вас. Однако этот и другие подходы по оптимизации лайк рейта не дали результата на тестах 😕

Причина

Оказалось, пользователи лайкают по-разному и лайк не значит "нравится". Кроме того, в боте есть супер-юзеры, которые смотрят мемы сотнями в день, когда большинство пользователей набирают всего 20-30 мемов. Относительным успехом было небольшое улучшение холодного старта за счет удаления из датасета супер-юзеров.

Как получилось совершить прорыв

В какой-то момент я придумал алгоритм сглаживания лайк рейта. Это позволило увеличить DAU бота на 12% 🔝.

Сглаженный лайк рейт делает поправки на средний лайк рейт юзера. Если юзер постоянно лайкает, его лайк учитывается с маленьким весом. А если лайкает редко, то наоборот с большим. Выглядит несложно (ссылки на код раз два), но нужно было понять куда ударить молоточком👷 и на это у меня ушло достаточно много времени.

💎 Выводы

ML могуч, но просто так не дает эффекта. Нужно глубоко понимать природу данных, поведение пользователей и конечно много смотреть выдачи. Теперь уже можно добавлять в рекомендации коллаборативный движок

Бонус для аналитиков. Я считал статзначимость теста бустрепом. Делюсь ноутбуком, где вы можете посмотреть пример, как это делается. Если будут вопросы, спрашивайте!

#tech
Please open Telegram to view this post
VIEW IN TELEGRAM
Обратите внимание на НЕмитап, на котором Юля и Женя будут рассказывать про то, как мы запускали продвижение за бюджет. Я тоже приложил руку к этому продукту и могу сказать, что с точки зрения аналитики там очень много инсайтов 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Анонс НЕмитапа по аналитике

В четверг на канале Avito Tech выйдет выпуск НЕмитапа по аналитике, в котором 2 senior data-аналитика из Авито, Юля и Женя, поделятся историей запуска нового продукта продвижения.

Почему стоит посмотреть (лучше онлайн, чтобы задать вопросы, но можно будет и в записи):

👉 Это реальный кейс с большим влиянием на бизнес
👉 Кейс будет про монетизацию, а там частенько непросто с точки зрения аналитики
👉 Юля и Женя - крутые спецы, вы могли слушать их мастер-класс на Aha’24 про traction-модели в продуктах

Подключайтесь - будет интересно!🔥
Инфляция грейдов

В одной статье я прочитал, что на рынке США 2-3 года опыта соответствует junior специалисту, 3-8 middle и только ближе к 10 годам senior. У нас же синьором становятся за 3-4 года.

Сложно сказать в чем главная причина: наличие большого количества локальных компаний и более острая нехватка кадров или сочетание менталитета и быстрорастущей отрасли. Так или иначе то, что мы наблюдаем у нас - это инфляция грейдов.

С точки зрения приносимой пользы есть ли разница между синьором с 4-х и 10-летним опытом?

Зависит от человека. В какой-то момент люди могут упереться потолок своих навыков и календарный опыт не изменит их продуктивность.

Однако в среднем мне кажется, что дополнительный опыт пошел бы 4-х летним синьорам на пользу. На примере DS очень полезен опыт доведения ML не просто до прода, а до значимого влияния на метрики или процессы. Уж больно много сейчас DS-ов хайпует знанием последних моделей, но это не соотносится с реальными задачами на проде. И такой продовый опыт копится по крупицам, потому что большую часть времени ты штурмуешь оффлайн метрики.

Как такой быстрый рост влияет на дальнейший карьерный путь?

Человек становится синьором, а его карьера только началась. Вроде как расти дальше куда-то надо. Поэтому часть компаний вводят дополнительные синьорные грейды: staff и principal. Однако есть две проблемы. Во-первых, такие грейды существуют преимущественно в крупных зрелых компаниях. Во-вторых, если брать DS и аналитику, люди гораздо чаще конвертируются в тимлидов, чем в стаффов. В тимлидах потребность обычно выше. Они тащат орг работу, которой всегда больше, чем людей, способных ее выполнять.

Сохранится ли инфляция грейдов?

Я уверен, что инфляция грейдов это временное явление горизонтом на 5-10 лет вперед, которое связано с быстрым ростом отрасли. Те новые специалисты, которые сейчас выходят на рынок никуда не исчезнут и конкуренция за синьорные позиции будет выше.

С другой стороны есть области, где всегда исторически был быстрый рост, например, консалтинг. Когда я работал в EY, нормальный путь до менеджера считался 4 года, а до партнера 10 лет (хотя именно партнером было стать очень непросто - нужно хорошо продавать).

Но мне все-таки кажется, что инженерные специальности так не работают. Инженерные навыки объективно подтверждаются и быстро расти смогут только самые талантливые.

Что думаете? Есть ли инфляция грейдов? В чем ее причина?

#management
2025/06/19 11:59:30
Back to Top
HTML Embed Code: