Telegram Group & Telegram Channel
Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation



group-telegram.com/begtin/6459
Create:
Last Update:

Для тех кто пользуется Интернет Архивом (web.archive.org) не все знают что у него кроме официального API есть ещё и неофициальное с помощью которого, например, можно получить информацию о том проиндексирован ли сайт/веб страница и как давно и как часто.

Вот пример такого кода на Python

import http.client

conn = http.client.HTTPSConnection("
web.archive.org")
payload = ''
headers = {
'Sec-Fetch-Mode': 'cors',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:135.0) Gecko/20100101 Firefox/135.0',
'Referer': '
https://web.archive.org'
}
conn.request("GET", "/__wb/sparkline?output=json&url=
https://fas.gov.ru&collection=web&=null", payload, headers)
res = conn.getresponse()
data =
res.read()
print(data.decode("utf-8"))


Для сайта ФАС России (fas.gov.ru) ответ будет выглядеть вот так

{"years":{"2005":[0,2,1,1,0,2,2,2,1,0,1,2],"2006":[0,3,0,3,4,3,5,8,4,6,3,1],"2007":[6,5,3,2,1,3,2,0,1,13,2,3],"2008":[2,2,2,1,1,0,1,0,2,4,1,3],"2009":[1,4,3,3,2,2,2,2,3,1,1,7],"2010":[4,4,4,4,0,0,2,1,2,2,2,3],"2011":[2,2,2,2,4,1,7,2,3,5,1,1],"2012":[5,12,9,13,10,9,9,10,8,5,14,20],"2013":[25,12,13,8,4,2,3,6,4,4,8,29],"2014":[33,29,32,29,30,15,18,22,16,20,13,3],"2015":[14,4,7,3,5,18,0,11,3,16,28,25],"2016":[28,24,36,23,5,21,7,16,24,23,33,46],"2017":[30,30,32,18,12,14,14,15,14,18,20,18],"2018":[10,5,12,7,5,9,8,14,15,8,10,9],"2019":[8,6,13,13,10,12,12,10,26,21,15,24],"2020":[10,27,32,26,25,27,24,27,24,30,13,6],"2021":[20,23,18,24,20,39,18,34,19,33,19,27],"2022":[162,112,0,2,1,0,0,0,0,0,0,0],"2023":[0,0,0,0,0,3,2,0,0,1,2,6],"2024":[17,2,0,60,90,80,10,0,0,0,0,0]},"first_ts":"20050203182849","last_ts":"20240705005432","status":{"2005":"422242222422","2006":"424222222222","2007":"222222242222","2008":"222224242222","2009":"222222222222","2010":"222244222222","2011":"222222222222","2012":"222222222222","2013":"222222222222","2014":"222222222222","2015":"222222422222","2016":"222222222222","2017":"222222222222","2018":"222222222222","2019":"222222222222","2020":"222222222222","2021":"222222222222","2022":"224334444444","2023":"444443344222","2024":"234222344444"}}

Из него можно узнать что последняя его индексация была в июле 2024 года (!) и не было индексации в 2025 году. Это означает что, либо вся подсеть, либо краулер Интернет Архива там заблокированы как минимум уже 7 месяцев.

Аналогично со многими другими сайтами. Я об этом писал ранее, а теперь можно проверить насколько заархивированы сайты с помощью API.

Что это означает?
1. Значительная часть официального контента российских государственных сайтов теперь отсутствует в Интернет Архиве
2. Необходимо архивировать их самостоятельно и с IP адресов в России

#webarchives #digitalpreservation

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6459

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. I want a secure messaging app, should I use Telegram?
from us


Telegram Ivan Begtin
FROM American