2016-04-26 18 views
0

Ich lerne eine Praxis namens "Web Scraping" mit Python. Von dem, was ich bis jetzt sagen kann, ist die Idee, eine Anfrage zu senden, um die Aufstellungsortdaten von einem Bediener zu laden, das DOM html in einer Variablen zu speichern, und dann im Grunde Daten das s *** aus der resultierenden Zeichenkette, bis Sie sind in der Lage, schnell und genau auf die Informationen zuzugreifen, die Sie benötigen.Kennt jemand eine Hallo Welt-Website?

Nun, ich bin bereit zu fummeln mit Aussagen, die mir helfen können, die eigentliche Data Mining zu tun, aber zuerst muss ich alle HTML in meiner Zeichenfolge zu sehen und zu verstehen. Nachdem ich den Dreh raus habe, ist mir egal, wie das HTML aussieht, aber im Moment muss ich in der Lage sein, es zu referenzieren, um meine Ausgabe richtig zu analysieren. bis jetzt habe ich versucht, google, python.net, youtube, verschiedene blogs und so weiter. Aber sie sehen alle wie aliasees aus.

Ich suche nur für die typischen Dinge, die Sie wissen?

<html><head><meta><script src=""><style src=""><title></title></head><body><div class=""><img src=""></div><div><h1>my page</h1><li></li><li></li><li></li><li></li><li></li><li></li><p>click <a href="">here</a></p></div></body></html> 

Sie bekommen, was ich sage? Nur eine Website ... die wie ... html ... verwendet, um einige einfach strukturierte Daten zu rendern.

P. S. Das ist irgendwie ordentlich. Ich habe diesem Beitrag einige Tags gegeben und ich habe 'simple-html-dom' entdeckt. Also habe ich es gegoogelt. Anscheinend ist es eine Art Sprache, mit der man HTML aus Online-Quellen genau so analysieren kann, wie ich es versuche. Ich werde das später überprüfen, aber ich möchte immer noch herausfinden, wie man das mit Python macht.

EDIT Eigentlich etwas wie this würde gut funktionieren, aber es ist einfach so groß. Ich würde etwas kleineres bevorzugen, um damit zu arbeiten.

+6

Warum nicht Sie nur Ihren eigenen Webserver betreiben? Sie können die Seiten dann wie gewünscht erstellen. Sie sollten auch auf schöne Suppe schauen (http://www.pythonforbeginners.com/beautifulsoup/) – rj93

+1

+1 für schöne Suppe. Aber bleiben Sie sich bewusst, dass die meisten heutigen Websites JavaScript-Rendering verwenden, so dass Sie nicht einfach das Ergebnis Ihrer HTTP-Anfrage verwenden können. Der Spaß besteht darin, tiefer zu graben, um den AJAX-Aufruf zu finden, der Daten zurückgibt (nett formatierte json oder xml). – richerlariviere

+0

@richerlariviere Ich verstehe nicht ganz, was du gerade gesagt hast, aber ich bin froh, dass du es gesagt hast, denn es fühlt sich an wie eines dieser Dinge, die einen Sinn ergeben, nachdem ich ein wenig getaucht bin. – Musixauce3000

Antwort

3

Während es wahrscheinlich nett wäre, eigene Webseiten zu erstellen, können Sie auch nach Seiten suchen, die "für Luchs optimiert" sind. Lynx ist ein reiner Textbrowser, mit dem "einfache" Seiten natürlich am besten funktionieren.

Die meisten der Links, die Sie finden werden, sind bereits tot, aber ich fand diese Liste zum Beispiel, die noch viele lebendige und ebenso einfache Seiten hat: http://www.put.com/dead.html (bitte ignorieren Sie den Inhalt selbst ... es gibt keinen besonderen Grund ich wählte dieses Beispiel außer, dass es wahrscheinlich gut für Ihre Zwecke funktioniert!)

Verwandte Themen