Telegram Group & Telegram Channel
🌸FineWeb 2: скСйлим CommonCrawl Π½Π° 1000+ языков 🌸
#nlp #ΠΏΡ€ΠΎ_nlp

Huggingface, ΠΊΠ°ΠΊ ΠΈ ΠΎΠ±Π΅Ρ‰Π°Π»ΠΈ, выпустили ΠΌΠ½ΠΎΠ³ΠΎΡΠ·Ρ‹Ρ‡Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ корпуса FineWeb Π½Π° 1000+ языков!

ΠšΠΎΡ€ΠΏΡƒΡ содСрТит 1893 ΠΏΠ°Ρ€Ρ‹ язык-ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚ΡŒ (это Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… языков Π΅ΡΡ‚ΡŒ нСсколько ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚Π΅ΠΉ), ΠΈ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ 8Π’Π± Π² сТатом Π²ΠΈΠ΄Π΅ ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ 3 Ρ‚Ρ€Π»Π½ слов.

ΠšΠΎΡ€ΠΏΡƒΡ Π½Π΅ содСрТит английского ΠΈ являСтся многоязычным Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ΠΌ для обучСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

РаспрСдСлСниС языков, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, Π½Π΅ Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅, поэтому 80 Ρ‚ΠΎΠΏ языков ΠΈΠΌΠ΅ΡŽΡ‚ 1Π“Π±+ Π΄Π°Π½Π½Ρ‹Ρ…, Π° хвост ΠΈΠ· послСдних 486 β€” мСньшС 1Мб.
ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΏΠΎ ΠΎΠ±ΡŠΡ‘ΠΌΡƒ β€” русский язык!

Π’ΠΎΡ‚ ΠΊΠ°ΠΊ Π½ΡƒΠΆΠ½ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ многоязычныС корпуса:

🟣Полная Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ: ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ сбора ΠΈ очистки Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠΏΠ΅Π½ сорсС ΠΏΠΎΠ΄ Apache 2.0

🟣 ВСрифицируСмая ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ для обучСния: Π½Π° ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 90+ Π·Π°Π΄Π°Ρ‡ FineTasks ΠΏΠΎΠΊΠ°Π·Π°Π½ ΠΌΠΎΠ½ΠΎΡ‚ΠΎΠ½Π½Ρ‹ΠΉ рост ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

πŸŸ£Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ: ODC-By 1.0 license β€” Π½Π΅ совсСм стандартная лицСнзия, Π½ΠΎ позвляСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ корпус для коммСрчСских ΠΈ нСкоммСрчСскиз Ρ†Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈ ΡƒΠΊΠ°Π·Π°Π½ΠΈΠΈ использованиС корпуса.

🟣HF dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1329
Create:
Last Update:

🌸FineWeb 2: скСйлим CommonCrawl Π½Π° 1000+ языков 🌸
#nlp #ΠΏΡ€ΠΎ_nlp

Huggingface, ΠΊΠ°ΠΊ ΠΈ ΠΎΠ±Π΅Ρ‰Π°Π»ΠΈ, выпустили ΠΌΠ½ΠΎΠ³ΠΎΡΠ·Ρ‹Ρ‡Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ корпуса FineWeb Π½Π° 1000+ языков!

ΠšΠΎΡ€ΠΏΡƒΡ содСрТит 1893 ΠΏΠ°Ρ€Ρ‹ язык-ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚ΡŒ (это Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… языков Π΅ΡΡ‚ΡŒ нСсколько ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚Π΅ΠΉ), ΠΈ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ 8Π’Π± Π² сТатом Π²ΠΈΠ΄Π΅ ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ 3 Ρ‚Ρ€Π»Π½ слов.

ΠšΠΎΡ€ΠΏΡƒΡ Π½Π΅ содСрТит английского ΠΈ являСтся многоязычным Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ΠΌ для обучСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

РаспрСдСлСниС языков, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, Π½Π΅ Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅, поэтому 80 Ρ‚ΠΎΠΏ языков ΠΈΠΌΠ΅ΡŽΡ‚ 1Π“Π±+ Π΄Π°Π½Π½Ρ‹Ρ…, Π° хвост ΠΈΠ· послСдних 486 β€” мСньшС 1Мб.
ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΏΠΎ ΠΎΠ±ΡŠΡ‘ΠΌΡƒ β€” русский язык!

Π’ΠΎΡ‚ ΠΊΠ°ΠΊ Π½ΡƒΠΆΠ½ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ многоязычныС корпуса:

🟣Полная Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ: ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ сбора ΠΈ очистки Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠΏΠ΅Π½ сорсС ΠΏΠΎΠ΄ Apache 2.0

🟣 ВСрифицируСмая ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ для обучСния: Π½Π° ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 90+ Π·Π°Π΄Π°Ρ‡ FineTasks ΠΏΠΎΠΊΠ°Π·Π°Π½ ΠΌΠΎΠ½ΠΎΡ‚ΠΎΠ½Π½Ρ‹ΠΉ рост ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

πŸŸ£Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ: ODC-By 1.0 license β€” Π½Π΅ совсСм стандартная лицСнзия, Π½ΠΎ позвляСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ корпус для коммСрчСских ΠΈ нСкоммСрчСскиз Ρ†Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈ ΡƒΠΊΠ°Π·Π°Π½ΠΈΠΈ использованиС корпуса.

🟣HF dataset

BY Kali Novskaya





Share with your friend now:
group-telegram.com/rybolos_channel/1329

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels.
from it


Telegram Kali Novskaya
FROM American