Telegram Group & Telegram Channel
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1273
Create:
Last Update:

🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from pl


Telegram Kali Novskaya
FROM American