Во время лекции о сборе данных на курсе по ML System Design зашёл разговор о data governance. Пришли к неожиданным выводам:
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
Jeff Zych's Internet Nook
Notes from “Good Strategy / Bad Strategy” by Jeff Zych
Strategy has always been difficult for me to pin down. What does a strategy look like? What makes a strategy good or bad? “Good Strategy / Bad Strategy,” by UCLA Anderson School of Management professor Richard P. Rumelt, takes a nebulous concept and makes…
Время Валеры
Запись стрима
До чего меня довел Игорь. Позвали судить хакатон по вайб-кодингу!
Не прошло и года с момента покупки 4-й версии мегапростыни, как вышла 5-я.
Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.
Непростая дилемма конечно, брать или нет
https://www.eightsleep.com/uk/product/pod-cover/
Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.
Непростая дилемма конечно, брать или нет
https://www.eightsleep.com/uk/product/pod-cover/
Искренне рекомендую прочитать про stage gate для AI проектов
https://www.group-telegram.com/c3po_notes/317
Давал как пример студентам в рамках курса по МЛ Систем Дизайну
https://www.group-telegram.com/c3po_notes/317
Давал как пример студентам в рамках курса по МЛ Систем Дизайну
Telegram
Записки C3PO
Привет, я Адам 👋
Пару месяцев назад я вышел в AI-центр Т-Банка продуктовым директором развивать пользовательские продукты. В этом посте расскажу, в чем ключевые отличия разработки AI-продуктов от традиционных, и как мы адаптировали классический Stage-Gate…
Пару месяцев назад я вышел в AI-центр Т-Банка продуктовым директором развивать пользовательские продукты. В этом посте расскажу, в чем ключевые отличия разработки AI-продуктов от традиционных, и как мы адаптировали классический Stage-Gate…
Удивился второй раз в жизни при работе над инфрой. Первый раз был, когда переезд с Postgres на BigQuery в Blockchain com ускорил (на самом деле!) запросы в 100 раз и снизил стоимость в 10.
Тестировали Iceberg поверх Parquet
AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x
Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.
Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок
Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.
P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история
Тестировали Iceberg поверх Parquet
AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x
Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.
Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок
Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.
P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история
Ходил по краю два года назад. Одним из вариантов работы в 2023 был VP of AI в buidr
Ранний аналог lovable
Ранний аналог lovable
Ft
Microsoft-backed UK tech unicorn Builder.ai collapses into insolvency
Once high-flying group founded by Sachin Dev Duggal says its was unable to recover from ‘past decisions’
Анонимусы (без шуток, так и написано в статье) из неуказанной компании (но дальше честно говорится, что это Яндекс) выпустили статью — Yambda-5B: A Large-Scale Multi-modal Dataset for Ranking and Retrieval.
Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.
Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.
По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия
Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.
Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.
И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день
Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.
В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.
Перезалил, с ссылкой на датасет
Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.
Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.
По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия
Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.
Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.
И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день
Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.
В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.
Перезалил, с ссылкой на датасет
Появилась первая часть моего разговора с Виктором Кантором
YouTube
Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть
Валерий Бабушкин — Эксперт по машинному обучению, Senior директор по Data & AI в BP (British Petroleum). Он Грандмастер по соревнованиям Kaggle и автор книги Machine Learning System Design. Валерий имеет уникальный опыт в Data Science: он был вице-президентом…
Будущее наступило. 2025 Ark's Big Ideas на 140+ страниц
AI Agents – the new UX layer
Bitcoin – maturing macro asset (Привет Игорю)
Stablecoins – the dollar’s stealth rails (а ведь и правда!)
Scaling Blockchains – cheaper smart-contracts
Robotaxis – autonomy’s first consumer win
Autonomous Logistics – drones, bots & driver-out trucks
Robotics – from washing machines to humanoids
Energy – powering the AI century
Reusable Rockets & Hypersonic Flight
Multiomics – data-driven biology
The thread that ties it all together - Neural networks are the prime catalyst: ARK maps them as the only technology that lifts six others by ≥ 10× value, so every other platform’s upside is keyed to continued gains in AI compute and architecture .
pdf в комментах
AI Agents – the new UX layer
Bitcoin – maturing macro asset (Привет Игорю)
Stablecoins – the dollar’s stealth rails (а ведь и правда!)
Scaling Blockchains – cheaper smart-contracts
Robotaxis – autonomy’s first consumer win
Autonomous Logistics – drones, bots & driver-out trucks
Robotics – from washing machines to humanoids
Energy – powering the AI century
Reusable Rockets & Hypersonic Flight
Multiomics – data-driven biology
The thread that ties it all together - Neural networks are the prime catalyst: ARK maps them as the only technology that lifts six others by ≥ 10× value, so every other platform’s upside is keyed to continued gains in AI compute and architecture .
pdf в комментах
Появилась вторая часть моего разговора с Виктором Кантором
YouTube
"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть
Валерий Бабушкин — один из ведущих экспертов в области машинного обучения, Senior Director по Data & AI в BP (British Petroleum), Kaggle Competitions Grandmaster, автор книги Machine Learning System Design. Валерий возглавлял направление машинного обучения…
После запрета со стороны Игоря писать Тагиру комментарии от лица своего канала в моем канале, я решил помочь, конечно же, себе! Заодно им и еще паре ребят. Собрали папку.
В папке — каналы инженеров и специалистов по ML и Data Science, которые стоит читать
Вся папка тут: https://www.group-telegram.com/addlist/Hy-LPGleDlY4MGRi
Жду Тагира в первом комментарии!
В папке — каналы инженеров и специалистов по ML и Data Science, которые стоит читать
Вся папка тут: https://www.group-telegram.com/addlist/Hy-LPGleDlY4MGRi
Жду Тагира в первом комментарии!
Первый запуск курса по ML-систем дизайну оказался успешным, если верить отзывам и моим впечатлениям (правда он ещё не закончился)
Пока у меня есть силы, я планирую провести ещё один . Сейчас есть примерно 25 заявок от тех, кого мы не приняли в первый раз, поэтому примерно ещё 25 человек готовы принять сверху
Курс проходит вживую, по выходным, по 2 часа два раза в неделю в течение 3 месяцев.
Запись здесь
Пока у меня есть силы, я планирую провести ещё один . Сейчас есть примерно 25 заявок от тех, кого мы не приняли в первый раз, поэтому примерно ещё 25 человек готовы принять сверху
Курс проходит вживую, по выходным, по 2 часа два раза в неделю в течение 3 месяцев.
Запись здесь
Время Валеры pinned «Оглавление С приходом новых людей в канал, пришла пора разместить нечто вроде путеводителя Остается вопрос, как его сделать доступным всем, ведь несмотря на то, что в описании канала указано что я работаю в blockchain.com - в комментариях писали, Валерий…»
Просто история про человека, который из-за проблем с наркотиками наломал дров и сел в тюрьму. Там он научился кодить и нашёл удалённую работу по разработке новой базы данных.
turso.tech
Working on databases from prison: How I got here, part 2.