Telegram Group & Telegram Channel
🌸FineWeb 2: скСйлим CommonCrawl Π½Π° 1000+ языков 🌸
#nlp #ΠΏΡ€ΠΎ_nlp

Huggingface, ΠΊΠ°ΠΊ ΠΈ ΠΎΠ±Π΅Ρ‰Π°Π»ΠΈ, выпустили ΠΌΠ½ΠΎΠ³ΠΎΡΠ·Ρ‹Ρ‡Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ корпуса FineWeb Π½Π° 1000+ языков!

ΠšΠΎΡ€ΠΏΡƒΡ содСрТит 1893 ΠΏΠ°Ρ€Ρ‹ язык-ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚ΡŒ (это Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… языков Π΅ΡΡ‚ΡŒ нСсколько ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚Π΅ΠΉ), ΠΈ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ 8Π’Π± Π² сТатом Π²ΠΈΠ΄Π΅ ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ 3 Ρ‚Ρ€Π»Π½ слов.

ΠšΠΎΡ€ΠΏΡƒΡ Π½Π΅ содСрТит английского ΠΈ являСтся многоязычным Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ΠΌ для обучСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

РаспрСдСлСниС языков, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, Π½Π΅ Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅, поэтому 80 Ρ‚ΠΎΠΏ языков ΠΈΠΌΠ΅ΡŽΡ‚ 1Π“Π±+ Π΄Π°Π½Π½Ρ‹Ρ…, Π° хвост ΠΈΠ· послСдних 486 β€” мСньшС 1Мб.
ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΏΠΎ ΠΎΠ±ΡŠΡ‘ΠΌΡƒ β€” русский язык!

Π’ΠΎΡ‚ ΠΊΠ°ΠΊ Π½ΡƒΠΆΠ½ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ многоязычныС корпуса:

🟣Полная Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ: ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ сбора ΠΈ очистки Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠΏΠ΅Π½ сорсС ΠΏΠΎΠ΄ Apache 2.0

🟣 ВСрифицируСмая ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ для обучСния: Π½Π° ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 90+ Π·Π°Π΄Π°Ρ‡ FineTasks ΠΏΠΎΠΊΠ°Π·Π°Π½ ΠΌΠΎΠ½ΠΎΡ‚ΠΎΠ½Π½Ρ‹ΠΉ рост ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

πŸŸ£Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ: ODC-By 1.0 license β€” Π½Π΅ совсСм стандартная лицСнзия, Π½ΠΎ позвляСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ корпус для коммСрчСских ΠΈ нСкоммСрчСскиз Ρ†Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈ ΡƒΠΊΠ°Π·Π°Π½ΠΈΠΈ использованиС корпуса.

🟣HF dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1329
Create:
Last Update:

🌸FineWeb 2: скСйлим CommonCrawl Π½Π° 1000+ языков 🌸
#nlp #ΠΏΡ€ΠΎ_nlp

Huggingface, ΠΊΠ°ΠΊ ΠΈ ΠΎΠ±Π΅Ρ‰Π°Π»ΠΈ, выпустили ΠΌΠ½ΠΎΠ³ΠΎΡΠ·Ρ‹Ρ‡Π½ΡƒΡŽ Π²Π΅Ρ€ΡΠΈΡŽ корпуса FineWeb Π½Π° 1000+ языков!

ΠšΠΎΡ€ΠΏΡƒΡ содСрТит 1893 ΠΏΠ°Ρ€Ρ‹ язык-ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚ΡŒ (это Π·Π½Π°Ρ‡ΠΈΡ‚, Ρ‡Ρ‚ΠΎ для Π½Π΅ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Ρ… языков Π΅ΡΡ‚ΡŒ нСсколько ΠΏΠΈΡΡŒΠΌΠ΅Π½Π½ΠΎΡΡ‚Π΅ΠΉ), ΠΈ Π·Π°Π½ΠΈΠΌΠ°Π΅Ρ‚ 8Π’Π± Π² сТатом Π²ΠΈΠ΄Π΅ ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ 3 Ρ‚Ρ€Π»Π½ слов.

ΠšΠΎΡ€ΠΏΡƒΡ Π½Π΅ содСрТит английского ΠΈ являСтся многоязычным Π΄ΠΎΠΏΠΎΠ»Π½Π΅Π½ΠΈΠ΅ΠΌ для обучСния ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ.

РаспрСдСлСниС языков, ΠΊΠΎΠ½Π΅Ρ‡Π½ΠΎ, Π½Π΅ Ρ€Π°Π²Π½ΠΎΠΌΠ΅Ρ€Π½ΠΎΠ΅, поэтому 80 Ρ‚ΠΎΠΏ языков ΠΈΠΌΠ΅ΡŽΡ‚ 1Π“Π±+ Π΄Π°Π½Π½Ρ‹Ρ…, Π° хвост ΠΈΠ· послСдних 486 β€” мСньшС 1Мб.
ΠŸΠ΅Ρ€Π²Ρ‹ΠΉ ΠΏΠΎ ΠΎΠ±ΡŠΡ‘ΠΌΡƒ β€” русский язык!

Π’ΠΎΡ‚ ΠΊΠ°ΠΊ Π½ΡƒΠΆΠ½ΠΎ Π΄Π΅Π»Π°Ρ‚ΡŒ многоязычныС корпуса:

🟣Полная Π²ΠΎΡΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΠΌΠΎΡΡ‚ΡŒ: ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½ сбора ΠΈ очистки Π΄Π°Π½Π½Ρ‹Ρ… Π² ΠΎΠΏΠ΅Π½ сорсС ΠΏΠΎΠ΄ Apache 2.0

🟣 ВСрифицируСмая ΠΏΠΎΠ»Π΅Π·Π½ΠΎΡΡ‚ΡŒ для обучСния: Π½Π° ΠΏΠΎΠ΄Π²Ρ‹Π±ΠΎΡ€ΠΊΠ΅ ΠΈΠ· 90+ Π·Π°Π΄Π°Ρ‡ FineTasks ΠΏΠΎΠΊΠ°Π·Π°Π½ ΠΌΠΎΠ½ΠΎΡ‚ΠΎΠ½Π½Ρ‹ΠΉ рост ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ Ρƒ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ

πŸŸ£Π›ΠΈΡ†Π΅Π½Π·ΠΈΡ: ODC-By 1.0 license β€” Π½Π΅ совсСм стандартная лицСнзия, Π½ΠΎ позвляСт ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ корпус для коммСрчСских ΠΈ нСкоммСрчСскиз Ρ†Π΅Π»Π΅ΠΉ ΠΏΡ€ΠΈ ΡƒΠΊΠ°Π·Π°Π½ΠΈΠΈ использованиС корпуса.

🟣HF dataset

BY Kali Novskaya





Share with your friend now:
group-telegram.com/rybolos_channel/1329

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look.
from tw


Telegram Kali Novskaya
FROM American