Website als Datei speichern?

PeterChrisben · 15. Januar 2010 um 16:25

Moin Zusammen…

…hab folgendes Problem.
Ich möchte eine Facebook-Xbox-Website parsen. Habe mir eine READER-Instanz angelegt und den entsprechenden Text-Parser.

Leider funzt das auslesen der Website nur alle 5-6 mal. Mal bekomme ich die Daten, mal nicht. Mir hat jemand gesagt das könne was mit dem Timeout von
dem Facebookserver zu tun haben.

Mit dem normalen Browser habe ich die Möglichkeit mit der rechten Maustaste " SEITE SPEICHERN UNTER…" zu wählen und die Seite lokal auf dem PC zu speichern. Wenn ich diese dann mit dem READER auslese bekomme ich alle Daten und das jedes mal.

Gibt es die Möglichkeit per PHP-Befehl die Seite vor dem Abfragen einmal zu Speichern damit ich sie dann Auswerten kann mit dem READER und PARSER?!

Danke für die Hilfe,

Peter

RWN · 15. Januar 2010 um 16:42

probier es mal mit fwrite, fopen und fclose. Die 3 Befehle sollten reichen.

PHP: fwrite - Manual

Hast mal einen Link zur Seite.

$content = implode("", file("http://www.webseite.de"));
$fh =  fopen("myfile.txt", "w");
fputs($fh, $content);
fclose($fh);

PeterChrisben · 15. Januar 2010 um 21:07

Danke für die fixe Antwort. Das hab ich schon probiert!!

Dann wird aber nicht die eigentliche Seite ausgelesen, sondern ich bekomme das hier ( ist nur ein Auszug! ):

…sp; Du benutzt einen inkompatiblen Webbrowser.Leider sind wir nicht cool genug, um deinen Browser zu unterstÃ¼tzen. Bitte verwende einen der folgenden Browser:Mozilla FirefoxSafariMicrosoft Internet ExplorerFacebook …

Ich hätte aber gerne den Quellcode den ich mit SEITE SPEICHERN UNTER… in Firefox oder Internet Explorer bekomme… schauste hier !!!

Scheint wohl eher ein IPS-PHP-Problem zu sein oder!?

Es muss doch möglich sein die Webseite irgendwie auf dem Rechner speichern zu können!!?

Vielleicht noch jemand einen Tip?

RWN · 15. Januar 2010 um 21:19

wGet wäre noch eine Möglichkeit. Bemüh mal sie Suchmaschine.

PeterChrisben · 15. Januar 2010 um 21:28

…die Suchmaschine glüht…mein Kopf auch. Bin kein PHP-Crack… und mit dem Zeugs was ich zu Wget finde kann ich nix anfangen.

naja…

RWN · 15. Januar 2010 um 21:39

HTTrack Website Copier - Offline Browser

tommi · 15. Januar 2010 um 21:40

Das „Problem“ ist, das dort eine Browserweiche verwendet wird, die (dem Betreiber) unbekannte Browser ablehnt. Man kann das umgehen, indem man im Header als Useragent-Namen einen dieser Browser mitgibt. Zum Download empfielt sich die Nutzung des curl-Moduls.
wget arbeitet genauso aber als Standalone-Programm und braucht auch die Angabe so eines Useragent-Namens, um die Seiten dieser Webpage abzuziehen.

Tommi

PeterChrisben · 15. Januar 2010 um 21:48

@ RWN : Das Teil habe ich auch gerade entdeckt…funzt auch. Nur kann man nicht Zyklisch eine Website auslesen.

@ Tommi : Klingt klasse… wenn du mir jetzt noch ein Beispiel gibst oder am besten gleich das passende Script würde ich heute Nacht schlafen können!

Wie gesagt… PHP-Honk ----> Peter!!

PeterChrisben · 15. Januar 2010 um 22:16

So funzt es!!!

ini_set('user_agent', 'Mozilla/4.0');

$content = implode("", file("http://apps.facebook.com/xbox-live/Gamercard.aspx?gtag=Dennsen%20Rosso"));

$fh = fopen("c:/IP-Symcon/Websites/zieldateineu.txt", "w");
fputs($fh, $content);
fclose($fh);

Danke für die Hilfe.,