mal umgekehrt archive org crawlen
  Home FAQ Contact Sign in
 
Advanced search
MATCHING GROUPS



more...
POPULAR GROUPS

more...

found 6 articles for 0.017 sec
Re: mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Sebastian G.
Date: Sep 16, 2007 03:36

... nicht ersetzen. # wget -O - 'http://web.archive.org/web/20070323004510/http://www.ccc.de/' ...E., ihn einfach auf die Original-URL crawlen zu lassen und auf Proxy-Level einfach die archive.org-URL vorne ...) auf localhost:80: ProxyPass / http://web.archive.org/web/20070323004510/http://www.ccc.de/ ProxyPassReverse / http://web.archive.org/web/20070323004510/http://www.ccc.de/...
Show full article (1.35Kb) · Show article thread
Re: mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Lukas Graf
Date: Sep 15, 2007 08:02

...auch nicht ersetzen. # wget -O - 'http://web.archive.org/web/20070323004510/http://www.ccc.de/'....E., ihn einfach auf die Original-URL crawlen zu lassen und auf Proxy-Level einfach die archive.org-URL vorne ...mod_prody) auf localhost:80: ProxyPass / http://web.archive.org/web/20070323004510/http://www.ccc.de/ ProxyPassReverse / http://web.archive.org/web/20070323004510/http://www.ccc.de/...
Show full article (2.12Kb) · Show article thread
Re: mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Sebastian G.
Date: Sep 14, 2007 15:05

... Und jetzt will das jemand crawlen, mit Wget oder Httrack. Das Problem:...könnte? Oder wo ich sonst mal nachfragen könnte? Statt mit Proxies... ist ja, bereits vor dem Crawlen bereits gecrawlte URLs auszunehmen. --base=<URL...ihn einfach auf die Original-URL crawlen zu lassen und auf Proxy-Level einfach die archive.org-URL vorne dranzugängen. Nur will mir das irgendwie nicht ...
Show full article (2.16Kb) · Show article thread
Re: mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Lukas Graf
Date: Sep 14, 2007 13:41

...: Und jetzt will das jemand crawlen, mit Wget oder Httrack. Das Problem: ...angehen könnte? Oder wo ich sonst mal nachfragen könnte? Statt mit Proxies, ...<file>, falls diese relativ sind. Da archive.org ja netterweise <BASE HREF=...> setzt, kannst du einfach darauf greppen und hast... weil ich nach ein paar schnellen Versuchen das Gefühl habe, archive.org möchte *nicht* gecrawlt werden....
Show full article (1.68Kb) · Show article thread
mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Sebastian G.
Date: Sep 13, 2007 14:28

...Und jetzt will das jemand crawlen, mit Wget oder Httrack. Das ... foo bar | s/^GET /GET org/web/datum/http://www.originalseite...www.originalseite.de/Host: web.archive.org/ Apache mit mod_proxy und...scheiße, und es kommt nur sowas wie "http://web.archive...RewriteEngine On | RewriteRule ^(.*)$ http://web.archive.org/web/20020815145325/http://$1...angehen könnte? Oder wo ich sonst mal nachfragen könnte...
Show full article (2.29Kb)
Re: mal umgekehrt: archive.org crawlen     

Group: de.org.ccc · Group Profile · Search for mal umgekehrt archive org crawlen in de.org.ccc
Author: Thomas P
Date: Oct 4, 2007 13:43

Am 15.09.2007 00:05 schrieb Sebastian G.: Das Hauptproblem ist ja, bereits vor dem Crawlen bereits gecrawlte URLs auszunehmen. Wenn durch das Crawlen der URLs Dateien erzeugt wurden, kannst du diese mit der Option -nc (--no-clobber) überspringen.
Show full article (0.25Kb) · Show article thread