Telegram Group & Telegram Channel
BirdCLEF+ 2025

Очередная часть ежегодного соревнования от Cornell Lab of Ornithology.

Дано:
– 12 ГБ аудиозаписей птиц, насекомых, рептилий и т. д.
– Источники (около–опенсорс):

1. xeno-canto.org
2. iNaturalist
3. Colombian Sound Archive (CSA) института Гумбольдта в Колумбии

Первые два источника — чистый краудсорс, разметка «грязная»:
1. у части семплов встречаются продолжительные комментарии колубийского натуралиста на испанском;
2. муха залетает в микрофон и гудит 40 секунд из 50 секунд записи вообще-то птицы;
3. мой любимый фейл — запись птицы, где звук обрывается громким «бултых», а дальше — полная тишина на 90 сек. Видимо не все микрофоны пережили сборку датасета

Разметка (для всех семплов):
1. Основной лейбл — целевая живность, которую нужно предсказывать.
2. Вторичный лейбл — какие ещё виды могут быть слышны. Конечно же не гарантирует то, что все виды на записи хотя бы отмечены
3. Координаты
4. Автор записи
5. Оценка качества (только для xeno-canto)
6. Источник данных (одна из трёх библиотек)

Трейн/тест сплит:
Общий пул разбит по записям, но обработан по-разному:
В train — полные аудиофайлы.
В test — нарезки записей по 5 с.
Например, из записей длительностью 30 сек и 20 сек получится 10 тест-семплов:
первые 6 — с основным лейблом первой записи;
остальные 4 — с лейблом второй.

Метрика:
Macro-ROC-AUC — сортировка вероятностей внутри каждого класса и усреднение без учёта частоты встречаемости.

Ну и конечно же ограничения на железо:
90 минут CPU-only

Тут кстати тренд:
2025- 90 min CPU-only
2024- 120 min CPU-only
2023- 120 min CPU-only
2022- 9 hours с доступом к GPU
2021- 9 CPU часов или 3 GPU часа

Как решать будете?



group-telegram.com/pseudolabeling/274
Create:
Last Update:

BirdCLEF+ 2025

Очередная часть ежегодного соревнования от Cornell Lab of Ornithology.

Дано:
– 12 ГБ аудиозаписей птиц, насекомых, рептилий и т. д.
– Источники (около–опенсорс):

1. xeno-canto.org
2. iNaturalist
3. Colombian Sound Archive (CSA) института Гумбольдта в Колумбии

Первые два источника — чистый краудсорс, разметка «грязная»:
1. у части семплов встречаются продолжительные комментарии колубийского натуралиста на испанском;
2. муха залетает в микрофон и гудит 40 секунд из 50 секунд записи вообще-то птицы;
3. мой любимый фейл — запись птицы, где звук обрывается громким «бултых», а дальше — полная тишина на 90 сек. Видимо не все микрофоны пережили сборку датасета

Разметка (для всех семплов):
1. Основной лейбл — целевая живность, которую нужно предсказывать.
2. Вторичный лейбл — какие ещё виды могут быть слышны. Конечно же не гарантирует то, что все виды на записи хотя бы отмечены
3. Координаты
4. Автор записи
5. Оценка качества (только для xeno-canto)
6. Источник данных (одна из трёх библиотек)

Трейн/тест сплит:
Общий пул разбит по записям, но обработан по-разному:
В train — полные аудиофайлы.
В test — нарезки записей по 5 с.
Например, из записей длительностью 30 сек и 20 сек получится 10 тест-семплов:
первые 6 — с основным лейблом первой записи;
остальные 4 — с лейблом второй.

Метрика:
Macro-ROC-AUC — сортировка вероятностей внутри каждого класса и усреднение без учёта частоты встречаемости.

Ну и конечно же ограничения на железо:
90 минут CPU-only

Тут кстати тренд:
2025- 90 min CPU-only
2024- 120 min CPU-only
2023- 120 min CPU-only
2022- 9 hours с доступом к GPU
2021- 9 CPU часов или 3 GPU часа

Как решать будете?

BY Запрети мне псевдолейблить




Share with your friend now:
group-telegram.com/pseudolabeling/274

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from us


Telegram Запрети мне псевдолейблить
FROM American