cryptovalerii Telegram Group

Время Валеры

Во время лекции о сборе данных на курсе по ML System Design зашёл разговор о data governance. Пришли к неожиданным выводам:

1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)

Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».

Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто

Jeff Zych's Internet Nook

Notes from “Good Strategy / Bad Strategy” by Jeff Zych

Strategy has always been difficult for me to pin down. What does a strategy look like? What makes a strategy good or bad? “Good Strategy / Bad Strategy,” by UCLA Anderson School of Management professor Richard P. Rumelt, takes a nebulous concept and makes…

33.7K views14:45

Время Валеры

Запись стрима

До чего меня довел Игорь. Позвали судить хакатон по вайб-кодингу!

30.7K views18:15

Время Валеры

Не прошло и года с момента покупки 4-й версии мегапростыни, как вышла 5-я.

Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.

Непростая дилемма конечно, брать или нет

https://www.eightsleep.com/uk/product/pod-cover/

34.3K views04:40

Время Валеры

Искренне рекомендую прочитать про stage gate для AI проектов
https://www.group-telegram.com/c3po_notes/317

Давал как пример студентам в рамках курса по МЛ Систем Дизайну

Записки C3PO

Привет, я Адам 👋
Пару месяцев назад я вышел в AI-центр Т-Банка продуктовым директором развивать пользовательские продукты. В этом посте расскажу, в чем ключевые отличия разработки AI-продуктов от традиционных, и как мы адаптировали классический Stage-Gate…

27.1K views09:56

Время Валеры

Удивился второй раз в жизни при работе над инфрой. Первый раз был, когда переезд с Postgres на BigQuery в Blockchain com ускорил (на самом деле!) запросы в 100 раз и снизил стоимость в 10.

Тестировали Iceberg поверх Parquet

AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x

Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.

Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок

Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.

P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история

25.7K viewsedited 10:45

Время Валеры

Ходил по краю два года назад. Одним из вариантов работы в 2023 был VP of AI в buidr

Ранний аналог lovable

Microsoft-backed UK tech unicorn Builder.ai collapses into insolvency

Once high-flying group founded by Sachin Dev Duggal says its was unable to recover from ‘past decisions’

20.3K viewsedited 06:38

Время Валеры

Анонимусы (без шуток, так и написано в статье) из неуказанной компании (но дальше честно говорится, что это Яндекс) выпустили статью — Yambda-5B: A Large-Scale Multi-modal Dataset for Ranking and Retrieval.

Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.

Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.

По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия

Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.

Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.

И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день

Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.

В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.

Перезалил, с ссылкой на датасет

26.3K viewsedited 09:32

Время Валеры

Появилась первая часть моего разговора с Виктором Кантором

YouTube

Карьера в топовых компаниях мира | Валерий Бабушкин 1 часть

Валерий Бабушкин — Эксперт по машинному обучению, Senior директор по Data & AI в BP (British Petroleum). Он Грандмастер по соревнованиям Kaggle и автор книги Machine Learning System Design. Валерий имеет уникальный опыт в Data Science: он был вице-президентом…

23.7K views11:13

Время Валеры

Разбирая архивы, наткнулся на картину, которую мне подарила моя команда в Х5.

«Въезд Цезаря в Рим»

Гордо стояла в моем кабинете

19.6K views11:37

Время Валеры

Будущее наступило. 2025 Ark's Big Ideas на 140+ страниц

AI Agents – the new UX layer
Bitcoin – maturing macro asset (Привет Игорю)
Stablecoins – the dollar’s stealth rails (а ведь и правда!)
Scaling Blockchains – cheaper smart-contracts
Robotaxis – autonomy’s first consumer win
Autonomous Logistics – drones, bots & driver-out trucks
Robotics – from washing machines to humanoids
Energy – powering the AI century
Reusable Rockets & Hypersonic Flight
Multiomics – data-driven biology

The thread that ties it all together - Neural networks are the prime catalyst: ARK maps them as the only technology that lifts six others by ≥ 10× value, so every other platform’s upside is keyed to continued gains in AI compute and architecture .

pdf в комментах

29.5K views20:29

Время Валеры

Появилась вторая часть моего разговора с Виктором Кантором

YouTube

"Никогда на Руси джуны хорошо не жили" | Валерий Бабушкин 2 часть

Валерий Бабушкин — один из ведущих экспертов в области машинного обучения, Senior Director по Data & AI в BP (British Petroleum), Kaggle Competitions Grandmaster, автор книги Machine Learning System Design. Валерий возглавлял направление машинного обучения…

22.8K views16:19

Время Валеры

После запрета со стороны Игоря писать Тагиру комментарии от лица своего канала в моем канале, я решил помочь, конечно же, себе! Заодно им и еще паре ребят. Собрали папку.

В папке — каналы инженеров и специалистов по ML и Data Science, которые стоит читать

Вся папка тут: https://www.group-telegram.com/addlist/Hy-LPGleDlY4MGRi
Жду Тагира в первом комментарии!

29.4K views09:04

Время Валеры

Первый запуск курса по ML-систем дизайну оказался успешным, если верить отзывам и моим впечатлениям (правда он ещё не закончился)

Пока у меня есть силы, я планирую провести ещё один . Сейчас есть примерно 25 заявок от тех, кого мы не приняли в первый раз, поэтому примерно ещё 25 человек готовы принять сверху

Курс проходит вживую, по выходным, по 2 часа два раза в неделю в течение 3 месяцев.

Запись здесь

17.4K views13:50

Время Валеры

Please open Telegram to view this post

VIEW IN TELEGRAM

20.0K views13:36

Время Валеры

Please open Telegram to view this post

VIEW IN TELEGRAM

21.8K views18:27

Время Валеры

Время Валеры pinned «Оглавление С приходом новых людей в канал, пришла пора разместить нечто вроде путеводителя Остается вопрос, как его сделать доступным всем, ведь несмотря на то, что в описании канала указано что я работаю в blockchain.com - в комментариях писали, Валерий…»

20:00

Время Валеры

Просто история про человека, который из-за проблем с наркотиками наломал дров и сел в тюрьму. Там он научился кодить и нашёл удалённую работу по разработке новой базы данных.

turso.tech

Working on databases from prison: How I got here, part 2.

11.1K views19:52

2025/06/18 20:14:08
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>