2017-07-25 8 views
0

ich viele Spinnen gebaut Nachrichtenartikel von verschiedenen Websites zu erhalten und ich habe eine api, den Text zu Audio-Clip zu konvertieren, aber ich brauche einen Rahmen oder Python Tools des Artikels Text zu verfeinern, wie:Wie werden Textdaten verfeinert?

Entfernen alles was mit der Quelle zu tun hat. Entfernen von Datumsformaten Entfernen von URLs. Ändern Sie Akronyme wie CEO zum Chief excution Officer zum Beispiel. Entfernen von Sonderzeichen und Tippfehlern.

Stellen Sie sicher, dass der Satz nach allen Änderungen korrekt geschrieben wird. Verwenden Sie die zuvor bearbeiteten Artikel als Referenz für die neuen Artikel.

Ich benutze Python, Nltk und Re, aber es ist anstrengend und jedes Mal, wenn ich denke, dass ich alle Fälle abgedeckt habe, finde ich neue Fälle hinzuzufügen und ich denke, ich bin in einer Endlosschleife stecken.

Irgendwelche Vorschläge?

Antwort

0

Zunächst einmal ist expanding acronyms to their full form nicht trivial und sollte wahrscheinlich nicht als Teil des Scrapings betrachtet werden, sondern als Teil eines zweiten Verarbeitungsschrittes (vgl. IBM's The Art of Tokenization).

Reinigung geschabt Daten mühsam ist, leider: Es gibt keine magische Lösung ist, weil jeder in etwas anderes als scaping interessiert ist, was Sie — sind einige interessiert sein könnte nur in URLs, zum Beispiel. Haben Sie nicht versucht, BeautifulSoup zu verwenden? — es ist eine Python-Bibliothek, die eine sehr nette API für die Handhabung vieler häufiger Scraping-Aufgaben bietet.