Notice: file_put_contents(): Write of 14448 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 4096 of 18544 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1273 -
Telegram Group & Telegram Channel
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1273
Create:
Last Update:

🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. READ MORE "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from id


Telegram Kali Novskaya
FROM American