group-telegram.com/rybolos_channel/1329
Last Update:
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса: