artificial_stupid Telegram Group

907 views16:50

✅

YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥

Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

⭐ Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️

Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS

Please open Telegram to view this post

VIEW IN TELEGRAM

1.1K views13:46

Artificial stupidity

#random

Fun fact: сегодня 5 лет, как я работаю в X5 (считай, половина карьеры).

Успел поделать многое, но надеюсь, что сделаю еще больше интересных проектов, выступлений и всякого разного.

P.S. Часы получились всратенькие, но мне лень генерировать новые.
P.P.S. Четко видно, на чем училась моделька. Обычно часы рекламируют со стрелками на 10:10 (можете сами посмотреть рекламу часов - в большинстве случаев на часах будет 10:10 или около того).

1.1K views15:45

Artificial stupidity

#conference #analytics

В конце мая буду на Aha!25 с докладом про прокси-метрики и их более умное применение в работе. Для его подготовки мне пришлось перелопатить немало научных работ (теперь стол завален распечатками, а сохраненки телеги ссылками на статьи), так что должно быть весьма интересно.

Если хотите послушать меня (или других спикеров, а их подобралось немало, хватило на целых два дня), то забегайте на конференцию.

Место: МГУ, кластер «Ломоносов» (Раменский бульвар, 1).
Даты: 29-30 мая
Ключевые темы:
- Интеграция LLM, ML и AI в цифровые сервисы
- Современные подходы к A/B-тестированию
- Оцифровка пользовательского опыта
- Применение машинного обучения в управлении продуктом
- Математическое мышление и поведенческая экономика

P.S. Заодно можно будет поболтать про разные темы на конфе (а болтать я люблю, хехе). Кто захочет меня там поймать для общения - пишите.

1.0K views11:01

Artificial stupidity

#video #conference

А вот подъехала запись моего выступления на митапе Т-Банка. Я там рассказывал про то, как мы делали систему автоматизации протоколирования встреч. Постарался начать от простого и пройти к вещам посложнее. Но доклад больше бизнесово-просветительский с налетом техники (впрочем, людям совсем не из IT может быть сложновато, это правда).

Ссылки: ютаб, VK (вот это поворот, но раз уж коллеги выложили туда, то пусть и туда будет ссылка).

Все по классике: смотрите, просвещайтесь, ставьте лайки!

887 views13:01

Artificial stupidity

#cinema #random

В общем, у меня тут недавно произошел absolute cinema moment. Наткнулся на сериал "Частые побочные явления". И это великолепный сериал.

Очень интригующий сюжет, много параллельных линий и подсюжетов, все постоянно в движении, но в движении интересном и правильно составленном. Хорошее музыкальное сопровождение (а я очень люблю, когда музыка дополняет и усиливает эффект от кино). Прекрасная режиссура, очень много интересных планов, метафор, визуальное повествование определенно на высоте. Есть авторское высказывание и заметный стиль. В общем, все, что нужно великолепному произведению.

Единственное - дизайн персонажей на любителя. Может показаться странным, но я привык (может и вы привыкните).

Если вдруг не смотрели - обязательно уделите ему внимание. Серии там не такие уж длинные (22-23 минуты), сезон на 10 серий, то есть, вполне можно посмотреть за вечер.

P.S. Теперь с нетерпением буду ждать второй сезон (которым, я на надеюсь, нас порадуют).

920 views12:01

Artificial stupidity

В Яндекс GO решили сделать лутбоксы (буквально собираешь ключи, чтобы открыть бокс и получить случайный приз), чтобы подрастить пользование продуктами Яндекса.

Как относитесь к таким механикам? Казалось бы, метрики вырастут, но паттерн какой-то серенький (как минимум)

1.2K views07:57

Artificial stupidity

Побаловался с генерацией бинго LLM. Местами получилось даже забавно

1.1K views13:23

Artificial stupidity

Forwarded from Neural Shit

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Чувак из твиттора напилил ИИ симтему, которая позволяет собакам управлять компом.

Система трекает морду, уши, лапы и суставы, определяет, куда собака смотрит, и понимает простейшие жесты. Собакен даже пытается играть в простейшие игры. А пес его друга научился листать DogTok (раздел тик-тока про собак) жестами.

Такими темпами, через пару-тройку лет можно будет свою собаку на фриланс пристроить.

Тут подробнее

909 views16:10

Artificial stupidity

Please open Telegram to view this post

VIEW IN TELEGRAM

834 viewsedited 11:17

Artificial stupidity

Я там тоже буду (не то, чтобы это был неожиданный поворот). Забегайте поболтать и послушать интересные доклады

763 views14:14

Artificial stupidity

Forwarded from ODS Events

Привет! Как ваши майские?

📢 Мы вовсю готовимся к встрече с вами и с радостью анонсируем регистрацию на еще один мощный офлайн — Data Fest 2025 в гостях у X5 Tech!

🧠 В программе:
— Доклады от экспертов хоста площадки с секцией Data и ML в Retail (X5 Tech) - поговорим о том, как данные меняют ритейл и не только
— Нейтральные секции: Advanced LLM, ML in Music — обсудим, как большие языковые модели находят применение в разных сферах и что происходит на стыке машинного обучения и творчества

🌟 Почему стоит прийти?
— Реальные кейсы, живые люди, честные обсуждения
— Зона для холивара на острые и актуальные темы с экспертами Х5 Tech
— Комьюнити, в котором можно говорить свободно
— И, конечно, пиво, пинг-понг и отдых после секций 🍻

📍 Где, когда? 1 июня, Москва
Регистрация по ссылке. Мест немного — успей зарегистрироваться по ссылке!

892 views14:14

Artificial stupidity

Forwarded from Продакты не нужны

Притча

Старый опытный CPO решил уйти из компании, чтобы посвятить свою жизнь ведению продуктовых курсов и Телеграм каналу. Собирает он своих трёх своих лучших продактов: «Ребята, пришла пора выбрать из вас моего преемника».

Приказал он Senior Product Manager с 1 годом опыта сделать касдев да сторипоинты посчитать. Неделю не было продакта видно, приходит с наполовину сделанной задачей и презентацией по выполненным OKR.

Приказал CPO своему Head of Product продолжить работу и сделать кликабельный прототип да таски на разработку поставить. Продакт поставил три таски в джиру: на бекенд, на фронтенд и на QA. В каждой поставил приоритет ургент, написал что все описал в слаке, а по всем вопросам к первому продакту.

Дошёл черёд до Group Head of Product. Ему выпало релиз принимать да what’s new для билда писать. Уточнил он статус проекта, написал bugfixes & stability improvements да свалил в отпуск потому что выгорел.

«Нихуя мы с вами опять говна наделали», сказал CPO.

1.0K views07:42

Artificial stupidity

#random

Внезапный пост о божественных круглых камнях.

Увидел в одном аниме (на а откуда же еще черпать знания об окружающем мире?) про локальную традицию префектуры Яманаси в Японии. Там есть так называемые Маруиси-гами (丸石神, если мне верно выдал персплексити японский вариант) - круглые камни, которым местные поклоняются с давних времен. Собственно, название так и переводится - "сферические каменные боги".

Абсолютно согласен с древними японцами. Зачем поклоняться (или бояться) ИИ, если есть такие клевые круглые камни (да и откуда им в древности знать про эти ваши ИИ)? Вот пройдут века, ИИ уйдет, а клевые круглые камни останутся.

P.S. Один из самых рандомных #random в канале. Но факт клевый (как и камни). А я по старой ЧГКшной привычке люблю прикольные факты (а прикольные камни я собирал еще с детства).

866 views11:00

Artificial stupidity

Forwarded from Борис опять

# 4 часа

Меня часто спрашивают: "Борис, как ты все успеваешь?" А я не отвечаю (занят изучением лора бомбардилло-крокодилло).

Есть вот такая мысль про продуктивность. Верхний предел активностей или проектов которые ты можешь тянуть равен количеству непрерывных 4 часовых блоков в твоем распоряжении за неделю.

Такая эвристика: если ты не можешь раз в неделю выделить на что-то 4 часа подряд, то вряд ли серьезно продвинешься.

4 часа это один раз нормально покодить (включая перерывы и отвлечения), один раз нормально поучиться, один созвон (10 мин созвон, 3 часа 50 минут реабилитация), один подход нормально пописать, один присест подумать над чем-то сложным. Коэффициент полезного действия у нас не 100%, так что в 4 часа включено время на погружение в контекст и другие неизбежные издержки. Поэтому одно стендап выступление это тоже 4 часа, ведь надо учесть дорогу, подготовку и неспособность что-то делать некоторое время после.

Получается, что один фултайм сотрудник может в пределе тянуть 4-8 рабочих задач одновременно. Обычно у всех календари хаотично забиты, едва найдется одно окошко на 4 часа, и мы получаем более согласованную с реальностью цифру: 1-3 задачи.

В общем освободить 4 часа подряд многократно полезнее, чем освободить 4 часа размазанные по всей неделе.

793 views10:45

Artificial stupidity

Раздаю интервью, хехе. Но раз спрашивают, отчего бы и не поделиться мудростью (ну или быть тем примером, когда "не надо так", тут уж как повезёт ;))

686 views09:55

Artificial stupidity

Forwarded from N айтишниц заходят в бар

#Типичный_айтишник этой недели Артем успел попробовать себя во многих направлениях работы. Его пример – доказательство того, что каждое испробованное направление становится бесценным опытом и открывает новые возможности.

- Кто ты и что делаешь?
Меня зовут Артем Ерохин, я — ведущий инженер нейронных сетей в X5 Tech. Но реально я скорее ближе к Lead DS и занимаюсь совершенно разнообразными задачами (выступления, внутреннее консультирование, найм, преподавание и т.д.).

- Как ты начал делать то, чем занимаешься сейчас?

У меня стандартный путь. Начал с физмат класса в школе, потом факультет прикладной математики, потом аналитика, из нее в ML. В какое-то время я серьезно интересовался маркетингом, поэтому начинал карьеру с маркетинговой аналитики и BI, но за год разочаровался в области и пошел работать в другое место. Вообще, опыт у меня получился разнообразный. Из интересного — я полтора года работал в научно-исследовательском и проектном институте городского транспорта Москвы, так что внес свой небольшой вклад в развитие города.
В менеджмент же меня привели как мои увлечения, так и навыки. Мой подход к работе естественным образом из раза в раз приводит к тому, что я беру на себя некоторую ответственность и начинаю так или иначе управлять процессом. Вроде и начинаешь с работы руками, а потом раз — и ты уже управляешь командой, решая уже более высокоуровневые задачи.

- Пригодились ли тебе навыки из не математических областей?
На фоне они всегда со мной. Оно просто есть и просто включается при необходимости. Наверное, больше всего пригодилось увлекечение кейсами и предпринимательством.
Вообще, я не склонен выделять какие-то области замкнутые, всегда есть пересечения и аналогии. А уж в областях между науками всегда кроются самые интересные вещи.

- Что самое интересное в работе?
Самое интересное — выяснять новое. Еще лучше, если это новое еще и необычное или неожиданное. Ну и еще мне нравится болтать, потому люблю выступать, делиться опытом и экспертизой. В 2022 и 2023 даже был лучшим ментором ODS.

- А самое неинтересное?
Самое неинтересное — встречи, рутина, какие-то скучные, но длинные коммуникации. Еще хуже, если постоянно кто-то дергает и выбивает из рабочего ритма. Тогда я быстро "разряжаюсь", становлюсь усталым и раздражительным.

- Расскажи нам интересную историю с работы.
Не так давно я по работе ездил на производство готовой еды (которая сейчас продается в Пятерочках — сырники, паста, сэндвичи, вот это все). И чтобы зайти на производство, пришлось облачиться чуть ли не в защитный костюм: были перчатки, халат, шапочка, маска, отдельная обувь. Потом еще пришлось несколько раз помыть руки, пройти через огромную систему обдува. В общем, процесс был непростой. Как будто в операционную собрался. Ждал, что где-то в подвале есть инопланетяне в холодильнике, но это не Зона 51, конечно. В холодильнике только колбаса и сыр 😉

- Совет про успешный успех?
Не верить в успешный успех 😉 А если серьезно, то лучше отслеживать неожиданные возможности, стараться участвовать в разных активностях и знакомиться с разными людьми. А еще заранее продумывать будущие шаги (в карьере и жизни в целом). И иногда (всегда) планы не срабатывают, потому стоит быть готовым этот план менять, либо иногда быть чуть более расслабленным, если понимаешь, что пока информации для планирования слишком мало и какое-то время придется ее пособирать.

-Расскажешь нам еще что-то про себя?
Еще расскажу про хобби. Я увлекаюсь драматургией, сценаристикой, писательским ремеслом. Прошел уже с десяток курсов по этим темам (например, недавно написал первую пьесу на курсах). Очень интересно, когда история из разрозненных фрагментов формируется в нечто единое. Еще приятнее, когда это публикуют.
Это я вообще к чему? Лучше иметь хобби, иначе можно выгореть. Особенно, если вы весь день работаете, потом еще изучаете что-то по работе, а на выходных садитесь смотреть лекции Стэнфорда. Не надо так 😉

857 views09:55

Artificial stupidity

#conference

Прошел жаркий период мероприятий. За последние 2 недели их у меня было аж 4 штуки. Пора подводить итоги и выдыхать.

Немного про мероприятия:

1. Коллеги позвали на "прожарку AI". Там за готовкой мы с участниками South Hub обсуждали "горячие" темы в области AI. Формат необычный, но не без минусов. Отвлекаться чревато последствиями - я себе в первые 10 минут готовки палец порезал (впрочем, я очки опыта вкладывал в интеллект, а не в ловкость, может проблема в этом). Пообщаться было прикольно, да и формат был весьма камерным + уровень участников весьма хорош, редко удается пообщаться с таким количеством директоров разом ;)
2. Был наш ИИ Demo Day в рамках X5. Рассказали о последних достижениях подразделения, ответили на вопросы коллег, подняли понимание о том, что мы делаем и кто все эти люди (ну, я очень на это надеюсь). В общем, получилось полезно (а еще весьма лампово, что тоже важно).
3. Сходил на оба дня Aha'25. На одном даже выступил (фото как раз оттуда). После доклада еще продуктивно пообщался и ответил на вопросы, которые не успел задать после доклада. А еще допытывал коллег из Сбера на предмет бенмаркинга LLM (вероятно, даже немного задолбал околофилософскими вопросами "а как вообще набором цифр описать, насколько хорошо LLM работает и возможно ли это в принципе?".
4. Закончилось все днем X5 на DataFest. Было весьма немало народа (человек 300-400 по моим оценкам, может и побольше). Активно общался, много интересных тем поднималось в обсуждениях, что весьма приятно. На DataFest тоже выступил, доклад зашел (хоть это и повтор с митапа, но многие его не слышали, так что все ок).

Какие из всего этого выводы:
1. LLM - горячая тема практически везде. Не особо удивлен, хайп продолжается.
2. Клево, когда сообщество обменивается мнениями. Например, мой доклад на aha - скорее призыв к обсуждению в рамках сообщества, ибо одна голова - хорошо, а много голов - ~~хтонический Лавкрафтианский монстр~~ лучше.
3. Клевый мерч привлекает на стенд и позволяет "зацепить" человека еще и пообщаться (капитанский вывод, но работает же). Одним из факторов мотивации тусоваться на датафесте был еще и корпоративный мягкий енот (спойлер - я его получил и без приключений передал в руки дочки, она довольна).
4. Мероприятия - дело энергозатратное. Много общения, много эмоциональных сил затрачивается (если, конечно, хочешь делать хорошо). Потому сейчас буду немного "отмокать".
5. Личный бренд - штука рабочая. Меня (и моих коллег) уже узнают по прошлым докладам и материалам (в позитивном ключе, конечно). Одну мою коллегу даже специально искали на датафесте, чтобы пообщаться именно с ней, т.к. очень понравилось одно из предыдущих выступлений (вот ее канал с прикольным названием "LLM и гречка").

В общем, я весьма доволен, но устал. Потому пока буду восстанавливать силы, т.к. летом и осенью будут еще мероприятия, так что stay tuned, так сказать.

724 views11:00

Artificial stupidity

Forwarded from Дата канальи — про «специалистов» в данных / ML / AI

Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять

506 views08:01

Artificial stupidity

#llm #paper

Прочитал на досуге статью "Beyond Benchmarking: A New Paradigm for Evaluation and Assessment of Large Language Models".

Достаточно короткая статья. Идея тоже обычная, но хорошо, что ее явно вытащили и прописали, т.к. часто вроде у всех это крутится где-то на границе сознания, а вот когда явно кто-то написал или проговорил - все становится на свои места.

Итак, в чем смысл стать? Авторы рассматривают типичный процесс бенчмаркинга LLM, а именно засилие "тестов" в бенчмарках. Что неплохо, но просто дает ряд циферок, но не отражает всей сложности процесса оценки и проверки качества работы LLM.

Потому авторы предлагают трехступенчатый процесс оценки LLM (Benchmarking-Evaluation-Assessment), который сравнивают с медицинским осмотром. Получается такой подход:
1. Benchmarking. Его мы не откладываем в сторону, но считаем первым шагом. Условно, оцениваем какие-то базовые параметры (как на осмотре - давление померить, общий анализ крови сделать и вот это все). По факту смотрим, где есть проблемы;
2. Evaluation. На основе выявленных проблемных зон делаем более глубокие исследования (медицинский аналог - более сложное исследование выписывается, например, УЗИ);
3. Assessment. Пытаемся интерпретировать результаты детальных исследований с помощью "модели-доктора", вместе с которой разрабатывается "план лечения" (то есть, направления и шаги по исправлению проблем на прошлых шагах).

В итогу, много где так и работает, просто это формально не фиксировали в таком процессе. Так что заслуга авторов тут, как я сказал, именно в том, что вытащили общую идею на свет и формально описали.

Но, на самом деле, есть и вопросы к такому формату:
1. А заметим ли мы важные проблемы на первом этапе (вроде в анализах все ок, а челу все хуже и хуже)?
2. Как подобрать эти более предметные исследования? Ок, модель на чем-то не очень хорошо справляется, но как мне набрать данные, чтобы более детально понять проблемы в работе LLM.
3. А судьи кто? Ок, человек может что-то попробовать понять (но с интерпретацией могут быть вопросики), а если использовать именно "модель-доктора", то на чем ее учить и как понять, что она корректно предлагает решение?

Итог.

Хорошо, что написали, но пока выглядит больше "за все хорошее и против всего плохого". Надеюсь, что авторы накинут в будущих работах еще деталей по пунктам, может тогда будет полезнее.

400 views12:02

2025/06/19 02:23:03
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>