Telegram Group Search
Во время лекции о сборе данных на курсе по ML System Design зашёл разговор о data governance. Пришли к неожиданным выводам:

1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)

Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».

Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
Время Валеры
Запись стрима
До чего меня довел Игорь. Позвали судить хакатон по вайб-кодингу!
Не прошло и года с момента покупки 4-й версии мегапростыни, как вышла 5-я.

Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.

Непростая дилемма конечно, брать или нет

https://www.eightsleep.com/uk/product/pod-cover/
Удивился второй раз в жизни при работе над инфрой. Первый раз был, когда переезд с Postgres на BigQuery в Blockchain com ускорил (на самом деле!) запросы в 100 раз и снизил стоимость в 10.

Тестировали Iceberg поверх Parquet

AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x

Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.

Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок

Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.

P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история
Ходил по краю два года назад. Одним из вариантов работы в 2023 был VP of AI в buidr

Ранний аналог lovable
Анонимусы (без шуток, так и написано в статье) из неуказанной компании (но дальше честно говорится, что это Яндекс) выпустили статью — Yambda-5B: A Large-Scale Multi-modal Dataset for Ranking and Retrieval.

Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.

Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.

По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия

Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.

Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.

И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день

Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.

В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.

Перезалил, с ссылкой на датасет
Разбирая архивы, наткнулся на картину, которую мне подарила моя команда в Х5.

«Въезд Цезаря в Рим»

Гордо стояла в моем кабинете
Будущее наступило. 2025 Ark's Big Ideas на 140+ страниц

AI Agents – the new UX layer
Bitcoin – maturing macro asset (Привет Игорю)
Stablecoins – the dollar’s stealth rails (а ведь и правда!)
Scaling Blockchains – cheaper smart-contracts
Robotaxis – autonomy’s first consumer win
Autonomous Logistics – drones, bots & driver-out trucks
Robotics – from washing machines to humanoids
Energy – powering the AI century
Reusable Rockets & Hypersonic Flight
Multiomics – data-driven biology

The thread that ties it all together - Neural networks are the prime catalyst: ARK maps them as the only technology that lifts six others by ≥ 10× value, so every other platform’s upside is keyed to continued gains in AI compute and architecture .

pdf в комментах
После запрета со стороны Игоря писать Тагиру комментарии от лица своего канала в моем канале, я решил помочь, конечно же, себе! Заодно им и еще паре ребят. Собрали папку.

В папке — каналы инженеров и специалистов по ML и Data Science, которые стоит читать

Вся папка тут: https://www.group-telegram.com/addlist/Hy-LPGleDlY4MGRi
Жду Тагира в первом комментарии!
Первый запуск курса по ML-систем дизайну оказался успешным, если верить отзывам и моим впечатлениям (правда он ещё не закончился)

Пока у меня есть силы, я планирую провести ещё один . Сейчас есть примерно 25 заявок от тех, кого мы не приняли в первый раз, поэтому примерно ещё 25 человек готовы принять сверху

Курс проходит вживую, по выходным, по 2 часа два раза в неделю в течение 3 месяцев.

Запись здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Время Валеры pinned «Оглавление С приходом новых людей в канал, пришла пора разместить нечто вроде путеводителя Остается вопрос, как его сделать доступным всем, ведь несмотря на то, что в описании канала указано что я работаю в blockchain.com - в комментариях писали, Валерий…»
Просто история про человека, который из-за проблем с наркотиками наломал дров и сел в тюрьму. Там он научился кодить и нашёл удалённую работу по разработке новой базы данных.
2025/06/18 20:14:08
Back to Top
HTML Embed Code: