group-telegram.com/abacabadabacaba404/66
Last Update:
Классный отчет со 2 места прошедшей соревы https://www.kaggle.com/competitions/ariel-data-challenge-2024/discussion/543853
В основе лежит Gaussian Process, который есть даже в sklearn, но медленный. Если у нас есть зашумленный ряд или многомерные данные, GP отвечает на вопрос не об истинных значениях в каждой точке, а к какому распределению она принадлежит, опираясь на наблюдаемые значения соседей. Метод байесовский потому что рассматривает все наблюдаемые точки, как случайные величины из многомерного нормального распределения.
GP предполагает, что у близких точек близкие значения, т.е. сигнал в каком-то смысле гладкий. Шум состоит из белого шума равномерного распределения, амплитуду которого надо знать заранее, а так же частотных скорелированных шумов. Каждое наблюдение это истинное значение + шум, поэтому усреднив соседние точки с учетом их корреляций между собой, мы можем лучше оценить их значения. Например, если рассмотреть три точки подряд, значения которых близки, а у третьей сильно отличается, то 3 получит гораздо меньший вес.
Ковариационная функция (ядро) бывает разная, обычно берут радиальную, задавая радиус на котором мы считаем, что локально изменения не сильные. GP в каком-то смысле обучается на данных локально, для каждой окрестности подбирая оптимальные веса восстановления сигнала по соседям.
Я потратил часов 10 в этом соревновании чтобы завести этот метод, обнаружил магию, что он довольно далеко может увести наблюдаемые данные в какой-то локальной области, при этом дальнейшие части пайплайна на этом участке дают более точный результат. Но я бросил, потому что результаты получались так себе, а что шевелить понятия не было. Так что на практике метод сильный, но, возможно придется повозиться, чтобы получить хороший результат.
Бонус: GP на JAX
BY adapt compete evolve or die

Share with your friend now:
group-telegram.com/abacabadabacaba404/66