Telegram Group & Telegram Channel
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1273
Create:
Last Update:

🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp

Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!

Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.

🟣Что это значит для нас?

Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.

Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.

По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.

🟣Internet Archive: на контрасте

Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.

Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.

🟣Критическое окно возможности для открытого знания и открытых данных

Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент

Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.

Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.

Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.

Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.

🟣А ты записался добровольцем?

Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.

🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.

BY Kali Novskaya




Share with your friend now:
group-telegram.com/rybolos_channel/1273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from ua


Telegram Kali Novskaya
FROM American