Sebastian G. wrote:
> Nein, es liegt daran, daß der Dateisystem-Filter von Wget meint, daß der
> Doppelpunkt im Dateinamen nicht OK sei, zum anderen will es den auch nicht
> ersetzen.
>> Also die Rekursion z.B. in Bash oder Python selbst schreiben,
>> unter Zuhilfenahme von wget oder auch curl.
>
> Also das, was ich eigentlich vermeiden wollte.
Warum? Aufwand kanns ja nicht sein, mit all dem was du schon versucht hast,
hast du doch sicher mehr Zeit verbracht als du brauchen würdest um das selbst
zu implementieren.
> Mit dem speziellen URL-Schema hapert es da allerdings.
Wobei der URL eigentlich nach RFC 1738 auch nicht gültig ist, wenn ich das
richtig verstehe:
| Thus, only alphanumerics, the special characters "$-_.+!*'(),", and
| reserved characters used for their reserved purposes may be used
| unencoded within a URL.
':' ist hier einer der reserved caracters, der aber nicht für den speziellen
Zweck benutzt wird, sollte also von
archive.org als %%3A encoded werden. Nein,
bei deinem Problem hilft dir das nicht weiter ;)
> Am einfachsten wäre es daher m.E., ihn einfach auf die Original-URL
> crawlen zu lassen und auf Proxy-Level einfach die
archive.org-URL vorne
> dranzugängen.