Hoe Archive.org blokkeren?

[ad_1]

Er is veel schijnbaar slechte / oude / onnauwkeurige informatie in de wereld over hoe archive.org, ook wel bekend als “The Wayback Machine”, te blokkeren van het schrapen van uw site. Dit is de meest nauwkeurige informatie die we erover kunnen vinden op het moment van schrijven. Spoiler alert: Internet Archive heeft onze site verwijderd toen we erom vroegen, maar de robots.txt-methode werkte niet.

ia_archiver is niet de Archive.org-bot

IA_Archiver is een bot voor Alexa. Het is blijkbaar niet langer een bot voor archive.org. Hoe weten we? De onderstaande schermafbeelding komt van deze Alexa-webpagina.

ia_archiver_is_alexa

Dat betekent dat als u robots.txt-uitsluiting als volgt gebruikt:

User-agent: ia_archiver
Disallow: /

Het zal Archive.org niet weigeren (Wayback Machine) maar blokkeert in plaats daarvan Alexa van het crawlen van uw site.

Is er een verband tussen Archive.org en Alexa?

Ja. Ze zijn gemaakt door dezelfde man. Volgens Wikipedia:

De Wayback Machine is gemaakt als een gezamenlijke inspanning van Alexa Internet en het internetarchief toen een driedimensionale index werd gebouwd om het bladeren door gearchiveerde webinhoud mogelijk te maken.” en dat “Brewster Kahle richtte het archief op in mei 1996, rond dezelfde tijd dat hij het winstgevende webcrawlbedrijf Alexa Internet oprichtte.

Waarom stopte Archive.org met het respecteren van robots.txt?

De mensen van Archive.org zeiden dat robots.txt-bestanden niet het doel van een archiefsite dienen. Je kunt hun bericht hierover hier lezen, maar een van de belangrijke punten die ze beweren is:

“In de loop van de tijd hebben we vastgesteld dat de robots.txt-bestanden die zijn gericht op crawlers van zoekmachines niet noodzakelijkerwijs onze archiveringsdoeleinden dienen.”

Hoewel ze erg graag willen vervullen hun doeleinden lijken ze de wensen van website-eigenaren over het hoofd te hebben gezien die niet willen dat hun intellectuele eigendom wordt geschraapt en weergegeven.

Waarom denkt iedereen dat ia_archiver een archive.org-bot is?

Omdat het vroeger was. Volgens de inmiddels ter ziele gegane archive.org uitsluitingspagina:

Het Internetarchief is niet geïnteresseerd in het aanbieden van toegang tot websites of andere internetdocumenten waarvan de auteurs hun materiaal niet in de collectie willen hebben. Om uw site van de Wayback Machine te verwijderen, plaatst u een robots.txt-bestand op het hoogste niveau van uw site (bijv. www.uwdomein.com/robots.txt).

Het robots.txt-bestand doet twee dingen:

  1. Het zal documenten van uw domein verwijderen van de Wayback Machine.
  2. Het zal ons vertellen om uw site in de toekomst niet te crawlen.

Om de crawler van het internetarchief uit te sluiten (en documenten van de Wayback-machine te verwijderen) terwijl alle andere robots uw site kunnen crawlen, moet uw robots.txt-bestand het volgende bevatten:

User-agent: ia_archiver
Niet toestaan: /


Ironisch genoeg kun je nog steeds de ter ziele gegane uitsluitingspagina op de WayBack-machine zien.

old_archive_org_exclude_page

Men zou kunnen aannemen dat de mensen van archive.org van gedachten zijn veranderd en dat nu Het internetarchief is geïnteresseerd zijn in het aanbieden van toegang tot websites of andere internetdocumenten waarvan de auteurs hun materiaal niet in de collectie willen hebben.

Ia_archiver werkte vroeger

Dus je ziet, tde juiste manier om te voorkomen dat archive.org uw site kopieert was om ia_archiver toe te voegen aan het robots.txt disallow-bestand en niet meer is. Aangezien alleen webmasters bewerkingstoegang zouden hebben tot een robots.txt-bestand van een site, leek dit een redelijk goede manier om dit te doen. Maar toen veranderde archive.org stilletjes de dingen en begon de inhoud van iedereen opnieuw te worden geschraapt. Jammer.

Als ia_archiver niet meer werkt, wat dan wel?

Volgens archive.org is de beste manier om een ​​site te verwijderen, ze een e-mail te sturen naar info@archive.org en hen te verzoeken deze te verwijderen. De exacte taal die ze gebruiken is:

Hoe kan ik de pagina’s van mijn site uitsluiten of verwijderen van de Wayback Machine? U kunt een e-mailverzoek sturen naar info@archive.org met de URL (webadres) in de tekst van uw bericht.

Maar als je ze een e-mail stuurt met de gevraagde informatie, komt er geen antwoord, althans niet onmiddellijk. We hebben het getest en ontdekten dat er in feite geen automatisch antwoord is, dus het lijkt een beetje op schreeuwen in een gat in de grond.

Waarom archive.org dit handmatig zou willen doen in plaats van webmasters hun eigen beslissingen te laten nemen over het kopiëren van hun inhoud met behulp van een robots.txt-bestand, is een raadsel. Het lijkt een nogal vervelende oplossing als het al werkt. Sommigen zeggen dat het werkt als een charme, anderen zeggen dat ze meerdere berichten naar het e-mailadres hebben gestuurd en weken of maanden later geen reactie hebben gekregen.

Een e-mail naar Internet Archive *doet* werkt

We hebben Internet Archive gemaild. Hoewel we geen automatisch antwoord ontvingen, reageerden ze ongeveer een week later op ons. Hieronder staat de e-mail die ze hebben gestuurd.

archief-e-mail

Sommigen zeggen dat archive.org_bot kan werken

Sommige gebruikers stellen voor om de oude ia_archiver disallow uit te schakelen voor een nieuwe archive.org_bot disallow. We hebben nog niet kunnen verifiëren of dit werkt. Velen zeggen van niet. Als je het wilt proberen, is hier de robots.txt-info die je nodig hebt:

User-agent: archive.org_bot
Disallow: /

U kunt mogelijk uw .htaccess-bestand gebruiken om archive.org te blokkeren

De Apache-webserver kan een .htaccess-bestand gebruiken om richtlijnen op te slaan. Hier vind je instructies hoe je dit moet doen. Je hebt de IP-adressen van de archiver-bot nodig. De IP-adressen van de Archive.org-bots vind je hier.

We hebben deze methode niet geprobeerd en je moet een beetje technisch zijn om het te doen. Zoals met alles op serverniveau adviseren we mensen om zich bewust te zijn van hun limieten en om een ​​professional in te huren als je dingen op serverniveau niet gemakkelijk kunt manipuleren.

Is het illegaal voor archive.org om zonder toestemming te schrapen?

Volgens de Electronic Frontier Foundation is het volkomen legaal om openbaar beschikbare inhoud te schrapen. Ze citeren een zaak in Washington DC en zeggen:

geautomatiseerde tools om toegang te krijgen tot openbaar beschikbare informatie op het open web is geen computercriminaliteit, zelfs niet als een website geautomatiseerde toegang verbiedt in de servicevoorwaarden.

Dit is zelfs van toepassing als de Servicevoorwaarden expliciet zeggen dat een gebruiker de site niet kan schrapen. LinkedIn heeft ooit een rechtszaak aangespannen tegen mensen die hun site schrapen in strijd met hun servicevoorwaarden – en verloren. Een artikel over de zaak vind je hier. Het zegt:

[The ruling] stelt dat de federale anti-hackingwet niet wordt geactiveerd door het schrapen van een website, zelfs als de eigenaar van de website, in dit geval LinkedIn, expliciet vraagt ​​om het schrappen te stoppen.

Een DMCA-melding gebruiken om archive.org te verwijderen

U kunt mogelijk een DMCA-verwijderingsbericht maken met een generator zoals deze. En dan het bericht naar de aardige mensen te e-mailen op info@archive.org.

We zijn nog niet klaar met het verifiëren of dit werkt of niet, maar we zullen deze blogpost bijwerken wanneer we dat doen.

Bedankt voor het lezen. Als u nog iets toe te voegen heeft, kunt u dit doen in de opmerkingen hieronder.

Veelgestelde vragen

Is er een verband tussen Archive.org en Alexa?

Ja. Archive.org en Alexa zijn gemaakt door dezelfde persoon.

Waarom stopte Archive.org met het respecteren van robots.txt?

De mensen van Archive.org zeiden dat robots.txt-bestanden niet het doel van een archiefsite dienen.

Hoe verwijder je een site van Archive.org?

Volgens archive.org is de beste manier om een ​​site te verwijderen, ze een e-mail te sturen naar info@archive.org en ze te vragen deze te verwijderen.

Is het illegaal voor archive.org om zonder toestemming te schrapen?

Volgens de Electronic Frontier Foundation is het volkomen legaal om openbaar beschikbare inhoud te schrapen.

Plaats een reactie