Re: mal umgekehrt: archive.org crawlen
  Home FAQ Contact Sign in
de.org.ccc only
 
Advanced search
POPULAR GROUPS

more...

 Up
Re: mal umgekehrt: archive.org crawlen         

Group: de.org.ccc · Group Profile
Author: Lukas Graf
Date: Sep 15, 2007 08:02

Sebastian G. wrote:
> Nein, es liegt daran, daß der Dateisystem-Filter von Wget meint, daß der
> Doppelpunkt im Dateinamen nicht OK sei, zum anderen will es den auch nicht
> ersetzen.

# wget -O - 'http://web.archive.org/web/20070323004510/http://www.ccc.de/'

Klappt prima (wget 1.10.2 auf Linux mit Bash).
>> Also die Rekursion z.B. in Bash oder Python selbst schreiben,
>> unter Zuhilfenahme von wget oder auch curl.
>
> Also das, was ich eigentlich vermeiden wollte.

Warum? Aufwand kanns ja nicht sein, mit all dem was du schon versucht hast,
hast du doch sicher mehr Zeit verbracht als du brauchen würdest um das selbst
zu implementieren.
> Mit dem speziellen URL-Schema hapert es da allerdings.

Wobei der URL eigentlich nach RFC 1738 auch nicht gültig ist, wenn ich das
richtig verstehe:

| Thus, only alphanumerics, the special characters "$-_.+!*'(),", and
| reserved characters used for their reserved purposes may be used
| unencoded within a URL.

':' ist hier einer der reserved caracters, der aber nicht für den speziellen
Zweck benutzt wird, sollte also von archive.org als %%3A encoded werden. Nein,
bei deinem Problem hilft dir das nicht weiter ;)
> Am einfachsten wäre es daher m.E., ihn einfach auf die Original-URL
> crawlen zu lassen und auf Proxy-Level einfach die archive.org-URL vorne
> dranzugängen.

Von hinten durch die Brust ins Auge?

Egal, wenn du das so machen willst, müsstest du einen reverse Proxy verwenden,
denke ich. Mit "ProxyRequests On" aktivierst du aber einen forwarding Proxy.

Schnellschuss aus der Hüfte, am Beispiel von www.ccc.de:

- www.ccc.de auf 127.0.0.1 umbiegen:

# echo "127.0.0.1 www.ccc.de" >> /etc/hosts

- Reverse Proxy (Apache/mod_prody) auf localhost:80:

ProxyPass / http://web.archive.org/web/20070323004510/http://www.ccc.de/
ProxyPassReverse / http://web.archive.org/web/20070323004510/http://www.ccc.de/

# wget --tries=1 -L 2 -r www.ccc.de

Auf den ersten Blick funktioniert das soweit, auch rekursiv. Aber wie gesagt,
bloss ein Schnellschuss, Detailfragen zu Apache wären in
de.comm.software.webserver OnTopic.

Gruss Lukas
no comments
diggit! del.icio.us! reddit!