ich viele Spinnen gebaut Nachrichtenartikel von verschiedenen Websites zu erhalten und ich habe eine api, den Text zu Audio-Clip zu konvertieren, aber ich brauche einen Rahmen oder Python Tools des Artikels Text zu verfeinern, wie:Wie werden Textdaten verfeinert?
Entfernen alles was mit der Quelle zu tun hat. Entfernen von Datumsformaten Entfernen von URLs. Ändern Sie Akronyme wie CEO zum Chief excution Officer zum Beispiel. Entfernen von Sonderzeichen und Tippfehlern.
Stellen Sie sicher, dass der Satz nach allen Änderungen korrekt geschrieben wird. Verwenden Sie die zuvor bearbeiteten Artikel als Referenz für die neuen Artikel.
Ich benutze Python, Nltk und Re, aber es ist anstrengend und jedes Mal, wenn ich denke, dass ich alle Fälle abgedeckt habe, finde ich neue Fälle hinzuzufügen und ich denke, ich bin in einer Endlosschleife stecken.
Irgendwelche Vorschläge?