Telegram Group & Telegram Channel
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp

Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!

Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.

Корпус не содержит английского и является многоязычным дополнением для обучения моделей.

Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!

Вот как нужно делать многоязычные корпуса:

🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0

🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей

🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.

🟣HF dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1329
Create:
Last Update:

🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp

Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!

Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.

Корпус не содержит английского и является многоязычным дополнением для обучения моделей.

Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!

Вот как нужно делать многоязычные корпуса:

🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0

🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей

🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.

🟣HF dataset

BY Kali Novskaya





Share with your friend now:
group-telegram.com/rybolos_channel/1329

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from vn


Telegram Kali Novskaya
FROM American