Das
Internet Archive hat bekannt gegeben, künftig Einträge in Robots.txt nicht mehr zu beachten. Die Datei, welche Instruktionen zum Umgang von Crawlern mit Webseiten enthält, diene, so das Projekt, "nicht notwendigerweise unseren archivarischen Zwecken." So hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass die Webseiten aus der "Wayback Machine" des Internet Archive herausfallen, einem Service, der es Nutzern erlaubt, Kopien von Webseiten aufzurufen, welche durch das Internet Archive gespeichert wurden.
Das Projekt hatte bereits vor einigen Monaten aufgehört, Robots.txt auf Seiten der US-Regierung und der US-Militärs zu betrachten. Nun soll Robots.txt auch bei anderen Webseiten nicht mehr beachtet werden. Das Ziel des Internet-Archivs ist das Erstellen von kompletten Snapshots von Webseiten, was auch Inhalte einschliesst, welche von Suchmaschinen ignoriert werden, wie etwa doppelt vorhandene Inhalte oder grössere Dateien. "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklaration der Robot.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war – aus Nutzersicht", so das Projekt.
Die Robots.txt ist eine Textdatei, durch welche Webseitenbetreiber Instruktionen an Suchmaschinen-Crawler geben können. Dadurch lassen sich zum Beispiele Teile oder auch ganze Webseiten von der Suche ausschliessen. Robots.txt ist kein verbindlicher Standard, sondern eine Konvention, welche jedoch von den meisten grossen Suchmaschinenbetreibern beachtet wird.
(swe)