group-telegram.com/begtin/6459
Last Update:
Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.
Вот пример такого кода на Python
—
import http.client
conn = http.client.HTTPSConnection("web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': 'https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data = res.read()
print(data.decode("utf-8"))
—
Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так
—
{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}
—
Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.
Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.
Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России
#webarchives #digitalpreservation
BY Ivan Begtin

Share with your friend now:
group-telegram.com/begtin/6459