Telegram Group & Telegram Channel
Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation
105🤔5🌚1



group-telegram.com/begtin/6459
Create:
Last Update:

Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6459

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from us


Telegram Ivan Begtin
FROM American