Telegram Group Search
Испания и Франция

График можно строить симметричным по осям координат или нет. Я строю симметричные оси (диапазон значений у осей одинаковый). Это честнее, но приводит к тому, что если есть команды-выброс, график становится одой этой команде, а для остальных теряет смысл.

Барселона (2.33 xG) опережает Атлетико на 0.73 xG, а ПСЖ (2.46 xG) Монако на 0.56 xG и на 0.85 Ниццу.
• Также никто столько не допускает моментов, сколько эти две команды создают (худший xGA в ЛаЛиге у Вальядолида 1.73, во Франции у Монпелье 1.68)
• Разница между Барселоной и Атлетико такая же, как между Атлетико и Осасуной, которая по xG занимает 15-ое место.
• ПСЖ, как и Бавария, лучшие и по xG, и по xGA.
• В Испании только Вальядолид своей слабой игрой в защите сумел заметно пролезть в фиолетовый квадрат. Во Франции все 16 команд, кроме ПСЖ и Монако, попали в левый квадрат.
• Результаты Марселя пока явно опережают их игру.

@number_in_sport
Ждём подписаний Уэйна Руни, Маруана Фелайни и Лейтона Бэйнса.
Гласбах может похвастаться самой дырявой обороной #прямосейчас. Пара фактов:

- За последние три игры в Бундеслиге Гласбах допустил у своих ворот 11.6 xGA. Бавария за весь свой сезон (16 игр) дала создать соперникам моментов на 9.9 xGA.
- Если отсортировать игры Баварии по xGA, то 11 игр с наименьшим xGA дают в сумме 3.6. Гласбах в каждой из последних двух игр дал соперникам создать больше (4.3 xGA против Баварии, 3.8 xGA против Вольфсбурга).
Всем привет.

Я знаю, что среди подписчиков канала есть люди, которые, как и я, занимаются программированием и анализом данных не только в виде хобби.
Поэтому если кто-то собирается на завтрашнюю оффлайн-часть Дата Ёлки 2024 в офис ВК, то мы могли бы встретиться и между докладами про компьютерное зрение, рекомендательные системы и т.п. поговорить и о DS/ML in sport.

Пишите мне в личку, ник в ТГ: @brains14482

https://ods.ai/events/data-elka-24-vk-offline
Набор данных для оценки 3D-поз на записях с ЧМ-2022 и соревнование Шрёдингера.

Исследователи из ETH Zurich выложили статью про WorldPose: новый датасет для оценки 3D поз человека. Почему эта новость здесь? Потому что 88 клипов, 150k кадров и 2.5 миллиона поз человека получены с ЧМ-2022. WorldPose, в отличии от других датасетов подобной тематики, которые обычно представляют дейсвия одного человека и/или в специальных помещениях, представляет динамические действия большого количества людей (10-20), которые одновременно находятся в кадре.

В статье рассказывается о процессе его создания (сборе данных с камер, их калибровке, разметке в 2D и т.д.). Качество сравнивали с данными от Vicon (система, когда человека обвешивают лампочками и он выглядит как ёлка) и получили хорошие результаты (средняя ошибка 8см.).

Проверили, как на WorldPose работают современные лучшие модели для оценки 3D поз. Результаты не очень, так что набор данных можно использовать как бенчмарк для дальнейшего улучшения качества моделей.

3D позиционирование может быть полезным в спортивной аналитике, а такой набор открытых (условно, об этом ниже) данных, вкупе с методикой его создания, даёт информацию для развития данного направления.

Теперь про "открытость" данных. Датасет предоставляется только по запросу к ETH Zurich через форму, но и это не всё. Т.к. видео файлы являются собственностью ФИФА, для их получения (ETH Zurich отдаёт только разметку) нужно отдельное согласие от них. Не сказать, чтобы у меня были технические возможности или скиллы, чтобы поработать с ними, но такой face control делает датасет почти закрытым.

Но это не всё. Вроде как на этих данных запущено открытое соревнование по ML. Почему вроде как? Потому что страница соревнования на сайте insideFIFA пропала, а из других упоминаний только html-страница WorldPose Challenge 2025 в гитхаб-репозитории проекта.

Сайт
Статья
Гитхаб

#soccer #data #3D #cv

@number_in_sport
Arsenal AI

Я иногда посматриваю на вакансии в спортивном data science. Не для того чтобы устроиться в Даллас Маверикс, сидя в провинциальном российском городе, а интереса ради. Вакансии встречаются разного типа, но такую я вижу в первый раз.

Арсенал ищет AI/Deep Learning Research Engineer для обучения/внедрения нейросеток, в т.ч. и LLM. Описание вакансии, как обычно в Европе, содержит много воды и "за всё хорошее против всего плохого", но если попытаться выжать суть, то требуется универсальный DL-солдат, который будет работать в различных доменах (текст, видео, изображения, геоданные, ну и таблички само собой) и внедрять весь этот ваш ИИ в аналитическую работу канониров. По описанию, похоже, что слово Research здесь не для красного словца: работа реально предполагает чтение статей и отслеживание SOTA (т.е. лучших) решений в индустрии.

Как обычно в иностранных вакансиях в требованиях перечислен весь стек DL-фреймворков (PyTorch, JAX, и даже, прости Господи, Tensorflow c Keras), так что непонятно, то ли Арсенал, в стиле БигТеха, смотрит не на знание конкретных фреймворков, а на общий инженерный уровень, то ли пока в этом направлении (DL/AI) у канониров ничего нет и поэтому на чём человек умеет писать, то и будет (так себе подход, ну да ладно).

На самом деле приятно видеть, что передовые команды стараются идти в ногу со временем и открывают такие вакансии с чёткими направлениями работы, а не "Нам нужен дата/BI/продукт аналитик с экспертным знанием машинного обучения, дата инженерии и фронтэнда за три копейки".

Вакансия
@number_in_sport
1/2
Тоттенхэм находится в очень тяжёлом положении: 15 место в АПЛ, 13 поражений в сезоне, семиматчевая серия без побед и кресло под тренером, как тот сентябрь.

На графике представлено 10-матчевое среднее по созданным (xG) и допущенным (xGA) угрозам без учёта пенальти у ТТХ в двух сезонах под руководством австралийца.

ТТХ в прошлом сезоне в этой же части сезона имел просадку по xG и взлёт xGA, что делало шпор «отрицательной» командой. Причём, в отличии этого года, у ТТХ не было матча с сумасшедшим выбросом (Ливерпуль, 5.6 npxGA). Можно сказать про травмы. Также, как и в этом году. Это так, но тут возникает вопросы в том числе и к тренеру, потому что «один раз — случайность, два — тенденция, три — закономерность». Но в целом ТТХ прошлого года был плюсовой командой, которая вышла на уровень 1.8 npxG за игру.

@numbers_in_sport
2/2
В этом году всё начиналось ещё лучше: ТТХ создавал в районе 2 xG, а разница между созданными и допущенными моментами была 0.82 xG. Но затем снова случился кризис. И беда даже не в том, что у ТТХ взлетела метрика xGA, это всего лишь влияние очень мощного выброса, а в том, что шпоры перестали создавать моменты. xG Тоттенхэма падает и сейчас достиг нижней точки за время работы Ангелоса. И, например, в дерби Северного Лондона были признаки того, что Постекоглу всё-таки прогнулся под «изменчивый мир», но без особого успеха.

Если отталкиваться только от результатов, то Постекоглу наработал на увольнение. Шутка ли, его ТТХ с начала прошлого года проиграл в АПЛ 25 раз. МЮ, который в жутком кризисе и чуть ли не одной ногой в пердиве чемпионшипе, проиграл за это время на одну игру меньше. С другой стороны, когда всё сходится в нужной точке, его Тоттенхэм претендент на нечто большОе.

@numbers_in_sport
Forwarded from Laptop Coach (Kirill Serykh)
Клоппи еще в декабре выкатил код для наших данных по 7 играм с синхронизацией трэкинга и ивентов от Кельнского спортивного университета. Авторы (Мануэль и Роберт) читают базовые курсы по данным у меня на программе, и они успели первыми выкатить синк по своему датасету быстрее - соберут больше цитирований) Наш алгоритм, который мы используем для Бундеслиги и МЛС один из моих коллег (собственно, автор, человек в одну каску делал его год) выложит позже, тому виной legals, возможные конфликты интересов и бюрократия)

Но теперь и статья, и данные доступны всем - так что если хочется поиграться с небольшим, но бесплатным объемом данных (и что-то интересное построить по ним - мы, кстати, скоро должны открыть и позицию на Data Science и какая-то работа по этим данным в паблике будет плюсом), есть отличный вариант.

https://github.com/PySport/kloppy/releases

https://www.nature.com/articles/s41597-025-04505-y
По версии Гугл за Аталанту играет то-ли модный рэпер, то-ли советское госучреждение.
Открытых данных в футболе не хватает, особенно если речь идёт про трекинг и физические показатели игроков. Поэтому хочу Вам рассказать о паре открытых датасетов, которые появились в конце 2024/начале 2025 года.

Первый датасет от Hudl, в котором они поженили данные двух знаковых футбольный компаний, которые прикупили: event-данные от Statsbomb и данные физического состояния игроков от WyScout. Данные содержат в себе все матчи J-Лиги сезона 2024

Statsbomb периодически выкладывали свои event-данные в открытый доступ, у них есть спецификация и гид для работы с ними в языке R, а вот открытых данных похожих на эти данные WyScout я не видел, поэтому подробнее остановимся на них.

В данных состояния игроков есть 14 параметров, которые связаны с объёмом и интенсивностью беговой работы: Общая дистанция в метрах, дистанции, пройденные с разными диапазонами скорости, максимальная скорость, число ускорений и т.п. Данные сгруппированы по 15-минуткам и в целом за игру. Разбивка данных по времени игры может позволить, например, проследить изменение показателей интенсивности бега и оценить усталость.

Понятно, что J-Лига не самая интересная лига для разбора, видимо поэтому её и выложили, но это хорошая возможность научиться работать с данными от провайдеров и сделать на них какой-нибудь свой пет-проект, с помощью которого появится на радарах сообщества.

Ссылка на скачивание: https://info.hudl.com/free-data-j1-league.html

Второй датасет от PFF FC. Pro Football Focus сделали себе имя на аналитике американского футбола, их лакмусовая бумажка - это система грейдов игроков. PFF FC - это соккерное (простите за это слово, но чтобы не запутаться) подразделение PFF и они выложили event и tracking данные всех матчей ЧМ 2022. Я ещё не успел их как следует посмотреть, но если они действительно качественные это большой буст для спортивного сообщества, у которого почти нет доступа к трекинг данным, а количество игр в доступе не более нескольких десятков. Из того, что посмотрел, к датасету приложены спецификации для обоих типов данных, так что не придётся догадываться, что каждый признак значит, а также есть связка-ключ между ними в виде game_event_id. Трекинг данные идут без пропусков кадров, т.е. учитывая, что все видео в 30 fps получается 200К+ кадров для каждой игры! Плюс в том, что записи игр, по которым сделана разметка, также в открытом доступе и их можно посмотреть в плеере на их сайте (также, как и отдельные эвенты). В целом, если с данными всё норм, это очень большой релиз.

Ссылка на скачивание: https://www.blog.fc.pff.com/blog/enhanced-2022-world-cup-dataset

@numbers_in_sport
This media is not supported in your browser
VIEW IN TELEGRAM
Как по сложности выглядит игра в чемпионате Саудовской Аравии по версии CR7.

P.S.: на самом деле это демо Animate Anyone 2 - новой ветки от Alibaba Group для анимации персонажей по картинке. В ней решаются проблемы сочетания нового персонажа с окружающей средой в видео. В демках на сайте есть и другие известные персонажи.

https://humanaigc.github.io/animate-anyone-2/
Forwarded from NBAatlantic
Немного информации о моём проекте НБА данных.

У меня есть репозиторий с данными nba_data. В нём хранятся play-by-play бросковые данные обо всех играх НБА, начиная с сезона 1996/97. Хранение на гитхабе и загрузка с него позволяет получить быстрый доступ к данным и не тратить время на их сбор, который может занять недели.

Так вот, на этой неделе в репе случилось обновление и теперь там есть matchups данные всех игр с сезона 2017/18 (до этого они не считались).

Matchups данные показывают статистику в игре для конкретной пары игрок атаки - игрок обороны. Могут быть полезны для анализа тактики команд и качества оборонительных/атакующих действий. Ветераны канала могут помнить как я строил Sankey диаграммы как раз по таким данным.

Репозиторий nba_data

@nbaatlantic
В РПЛ намечается интересная борьба за чемпионство: после 19 туров у Спартака, Краснодара и Зенита одинаковое количество очков (40).

Зенит стартовал с 4 побед и ушёл в отрыв относительно двух других команд. Запаса хода хватило до 10 тура, потому что Краснодар, трижды сыгравший вничью вначале сезона, далее выдал 11-матчевую победную серию.

Спартак на этом этапе сезона в чемпионской гонке не участвовал: после 12 туров он уступал 11 очков быкам и 10 питерцам. Но с того момента красно-белые не потеряли ни одного очка, за последние 5 туров они отыграли эти 11 очков у Краснодара и, следуя велоспортивной терминологии, переложились из пелотона в отрыв.

Каждая из трёх команд в сезоне имеет "горячие" и "холодные" серии игр, так что будет интересно посмотреть ждёт ли нас захватывающая развязка или одна из команд, опять-таки в терминах велоспорта, сумеет атаковать из лидирующей группы.

@numbers_in_sport
В матче с МЮ была графика, что канониры не реализовали ни одного из 43 последних угловых, а до этой серии реализовывали каждый тринадцатый. Небольшая задачка на вероятности: какова вероятность не реализовать 43 угловых, если вероятность забить 1 из 13?
Anonymous Quiz
54%
3,2%
13%
5,6%
20%
0,5%
13%
12,3%
Скандалы, интриги, расследования в спортивной аналитике.

Команда МЛБ Филадельфия Филлис подала в суд на Zelus Analytics за то, что те нарушают условия контракта с командой и продают части своей платформы Titan Intelligence Platform её конкурентам по дивизиону.

Суть в следующем: по заключённым контрактам в 2022 и 2023 Zelus уже получили от Филы 1.75 М долларов (и получат 725 тысяч в этом году) в обменам на доступ к платформе TItan, аналитика и модели которой помогают командам в оценке игроков высшей и низших лиг бейсбола, заключении контрактов и выборе ростера (для бейсбола это важно, в зависимости от соперника и нагрузки на конкретных игроков девятка отбивающих может сильно меняться). В обмен на это Филадельфия получила эксклюзивное право на доступ в платформе в своём дивизионе NL East, и в целом возможности Zelus по продаже своей платформы ограничены правилом "1 дивизион - 1 команда". Zelus предлагали пересмотреть сделку, чтобы они могли продавать компоненты платформы всем командам МЛБ в обмен на снижение стоимости контракта для Филлис, но те отказались из-за нежелания терять конкурентное преимущество. После чего, судя по исковому заявлению команды, Zelus всё равно стали это делать в обход контракта.

С одной стороны мне очень не нравится такие "эксклюзивные" схемы - гораздо лучше, когда доступ к инструменту есть у всех команд Лиги и качество его использования зависит только от желания и дата-культуры. С другой, Zelus никто не заставлял подписывать такой контракт и уж если его подписали, то будьте добры исполнять. Что скажете?

Ссылка


@number_in_sport
2025/04/02 10:43:30
Back to Top
HTML Embed Code: