Notice: file_put_contents(): Write of 10352 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 18544 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1273 -
Telegram Group & Telegram Channel
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1273
Create:
Last Update:

🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

I want a secure messaging app, should I use Telegram? Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from es


Telegram Kali Novskaya
FROM American