Ich mache Textanalyse auf Nachrichten zu Finanzmärkten. Ein Beispiel Text von diesen News-FeedsFehler beim Teilen von Text in Sätze mit CoreNLP bekommen
„Wir müssen es von der Seite des CBS mehr beurteilen würden sicher sie waren nicht die Investition in einem schlechten Geschäft machen“, Michael Cuggino, President und Portfoliomanager bei San Francisco-basierte Permanent Portfolio Familie von Fonds, die stimmberechtigten Aktien von CBS und Viacom besitzt, sagte Reuters.Salvatore Muoio, Principal mit New Yorker S. Muoio Co, ein großer Besitzer von Viacom stimmberechtigten Aktien, sagte a Bieter Prozess für Viacom würde die meisten Wert realisieren.Viacom könnte Unternehmen wie als AMC und Discovery-Programmierung und Maßstab für bessere Verhandlungen geben te für höhere Gebühren von Kabel- und Satellitenverteiler, Muoio said.Representatives für Verizon, Apple und Entdeckung ging auf Kommentar.“
Ich Stanford CoreNLP Bibliothek für Analyse.
Im obigen Text
Reuters.Salvatore
Reuters. Salvatore
Aufgrund dieses Fehlers sein sollte, wirft coreNLP Parser Satz maxlen Warnung und manchmal Nullpointer, weil sie nicht in der Lage ist, Text in Sätze korrekt aufgeteilt .
Diese Art von Fehler tritt in einigen Texten zufällig auf. Wie kann ich CoreNLP mit dieser Art von Text arbeiten?
Ist Interpunktion wichtig in Ihren Daten? Können Sie die Perioden teilen oder auf andere Weise entfernen? –