2016-06-15 2 views
-1

Hallo Ich schreibe hier um zu fragen, ob es eine Möglichkeit gibt, die Extraktion von Daten von dieser Website zu automatisieren http://www.wordandphrase.info/frequencyList.asp. Ich habe eine Liste von 1000 Wörtern wie Rätsel und fortgeschrittenen Wörtern und ich möchte die am häufigsten verwendeten Wörter lernen. Dazu möchte ich wissen, wie ich die Häufigkeitszahl extrahieren kann, die erscheint, wenn ich das Wort auf dieser Website suche in ein Excel-Arbeitsblatt, so dass es neben dem fraglichen Wort erscheint.Web Scraping von wordandphrase.info zur Bestellung Frequenz Wörterliste

wäre hier ein Beispiel sein:

Spalte A (Wort) Spalte b (Frequenz)

conundrum 14912 unter 3855

Hier ist ein Bild, in dem zwei Pfeile in gelben Punkt auf die Daten/Informationen möchte ich extrahieren:

Excel web scraping

Dank!

+0

Die Zahl neben dem Worte conundrum und inmitten der Frequenznummer auf der Website erschien, sorry ich jetzt sehen, dass es das Format geändert durch die Veröffentlichung. – Defoe

Antwort

0

Erstens - es ist in der Regel höflich, einen Hinweis darauf, was Sie bisher versucht haben, was Ihr Hintergrund ist usw. Warum es diese Seite sein muss und warum Sie nicht nur tun, indem Sie Wordandphrase.info Daten usw. herunterladen. Auch - zu versuchen, genau zu bestimmen, welches Problem Sie haben - haben Sie Probleme beim Schreiben von Excel oder Schwierigkeiten beim Scrapen mit einem bestimmten Werkzeug - oder haben Sie absolut keine Ahnung, was Sie tun und jemanden einstellen müssen.

so gehe ich auf die Website http://www.wordandphrase.info/frequencyList.asp - Suche nach "Rätsel" - leider nicht Link zu http://www.wordandphrase.info/frequencyList.asp?word=conundrum.

Mal sehen, wie seine die Daten bekommen - Entwickler-Tools - Netzwerk - re - Suche nach conundrum Wir bekommen eine Ladung wirklich interessante Dateien:? Syns.asp r = Synonym & w1 = conundrum & c1 = n & n = 0 & w = 1 & s = 0 für Synonyme, x3.asp? d = y = & w1 conundrum & c1 = n für Kollokatoren i annehmen und die, die in freq2.asp zur Frequenz Reihen interessierten usw.

Wenn wir die Formulardaten setzen und sie mit Python testen, um die Seite zu erhalten, scheinen wir eine richtige zu finden und dann auf eine Fehlerseite zu kommen - hmm - versuch eine Sitzung - nein

Lassen Sie uns versuchen, Javascript in unserem Browser zu deaktivieren und sehen, ob es funktioniert oder nicht - emm - nein!

Zeit der großen Kanonen auszubrechen - Selen

Wir einen Treiber einrichten, erhalten wordandphrase.info/frequencyList.asp Schalterrahmen, füllen Formular aus, klicken Sie auf Absenden-Button, wechseln Rahmen erneut und wählen Sie den Rang mit css und der pos mit css selectors - und es funktioniert - ausgezeichnet! Jetzt bündeln wir das in eine Funktion und benutzen es durch die gelieferten Wörter.

Wir verwenden die hervorragende csv-Bibliothek, um diese in csv zu exportieren und dann diese csv in Excel zu öffnen und als Excel zu speichern, wenn dies erforderlich ist.

Lassen Sie mich wissen, ob und wo Sie Probleme haben

+0

Hallo Süßer, danke für deine Antwort Ich fürchte, ich beginne gerade im Programmierbereich, so dass der einzige "Sprachcode", den ich kenne, VBA ist. Ich habe dieses Video auf youtube https://www.youtube.com/watch?v=7sZRcaaAVbg gesehen, das einige Hinweise darauf gab, was zu tippen war. Der Zweck war, die häufigsten englischen Wörter aus meiner Liste zu studieren, indem man sie durch die Wort-und-Satz-Datenbank priorisierte. Der Code, den ich ausprobiert habe, ist der selbe, der im Video erscheint, also probiere ich neue Sachen aus, um zu sehen, ob es eine Möglichkeit gibt, mit VBA zu arbeiten oder stattdessen Python zu lernen. XD – Defoe

+0

Lass mich wissen, wie es dir geht. Ich weiß nichts über VBA und habe kein Büro - ich fürchte, ich bin keine Hilfe. Obwohl - auf Frames achten ist wahrscheinlich wichtig ... Für was es wert ist - Python eignet sich hervorragend für Web-Scraping und für das Lernen zu programmieren. Versuch es einmal. Wenn Sie immer noch Probleme haben, lassen Sie es mich wissen. –

+0

für was es wert ist - https://gist.github.com/SweetBurlap/1656cb62c53a397dae2df8dfa9b03017 –