2016-07-22 3 views
0

Ich mache Textanalyse auf Nachrichten zu Finanzmärkten. Ein Beispiel Text von diesen News-FeedsFehler beim Teilen von Text in Sätze mit CoreNLP bekommen

„Wir müssen es von der Seite des CBS mehr beurteilen würden sicher sie waren nicht die Investition in einem schlechten Geschäft machen“, Michael Cuggino, President und Portfoliomanager bei San Francisco-basierte Permanent Portfolio Familie von Fonds, die stimmberechtigten Aktien von CBS und Viacom besitzt, sagte Reuters.Salvatore Muoio, Principal mit New Yorker S. Muoio Co, ein großer Besitzer von Viacom stimmberechtigten Aktien, sagte a Bieter Prozess für Viacom würde die meisten Wert realisieren.Viacom könnte Unternehmen wie als AMC und Discovery-Programmierung und Maßstab für bessere Verhandlungen geben te für höhere Gebühren von Kabel- und Satellitenverteiler, Muoio said.Representatives für Verizon, Apple und Entdeckung ging auf Kommentar.“

Ich Stanford CoreNLP Bibliothek für Analyse.

Im obigen Text

Reuters.Salvatore 

Reuters. Salvatore 

Aufgrund dieses Fehlers sein sollte, wirft coreNLP Parser Satz maxlen Warnung und manchmal Nullpointer, weil sie nicht in der Lage ist, Text in Sätze korrekt aufgeteilt .

Diese Art von Fehler tritt in einigen Texten zufällig auf. Wie kann ich CoreNLP mit dieser Art von Text arbeiten?

+0

Ist Interpunktion wichtig in Ihren Daten? Können Sie die Perioden teilen oder auf andere Weise entfernen? –

Antwort

0

Wenn Sätze übersprungen, die zu lang sind für Ihren Anwendungsfall akzeptabel ist (so dass es zumindest mit dem Rest der Daten geht), vielleicht ist das, was Sie brauchen: Setting max Length for Sentence in StanfordCoreNLP

+0

Nein, ich kann es mir nicht leisten, Sätze zu überspringen. Nachdem ich den Text in Sätze mit corenlp aufgeteilt habe, verwende ich Regex, um die Sätze erneut zu teilen. Obwohl es keine perfekte Lösung ist, hat es die Fehlerrate ausreichend reduziert. – ashwinids

Verwandte Themen