ich diese Art von Informationen aus der folgenden Absatz Struktur zu extrahieren bin versucht:NLP - Informationsextraktion in Python (Spacy)
women_ran men_ran kids_ran walked
1 2 1 3
2 4 3 1
3 6 5 2
text = ["On Tuesday, one women ran on the street while 2 men ran and 1 child ran on the sidewalk. Also, there were 3 people walking.", "One person was walking yesterday, but there were 2 women running as well as 4 men and 3 kids running.", "The other day, there were three women running and also 6 men and 5 kids running on the sidewalk. Also, there were 2 people walking in the park."]
ich Python spaCy
als meine NLP Bibliothek verwenden. Ich bin neuer in der NLP-Arbeit und hoffe auf eine Anleitung, was der beste Weg wäre, diese tabellarische Information aus solchen Sätzen zu extrahieren.
Wenn es nur darum ging, festzustellen, ob jemand läuft oder läuft, würde ich einfach sklearn
verwenden, um ein Klassifizierungsmodell zu erstellen, aber die Informationen, die ich extrahieren muss, sind offensichtlich granularer als das (ich versuche es Unterkategorien und Werte für jedes abrufen). Jede Anleitung würde sehr geschätzt werden.
ich habe noch nie eine XPath-Abfrage oder einem DOM-Selektor geschrieben. Könnten Sie bitte erklären? – kathystehl
@kathystehl XPath gibt einen Speicherort in einem XML-Dokument (HTML) an. Eine XPath-Abfrage ist also eine Möglichkeit, ein bestimmtes Element in XML oder HTML zu finden. Siehe [Wikipedia] (https://en.wikipedia.org/wiki/XPath). Ein DOM-Selektor ist ein beliebiges CSS-Element "id" oder "class" in einem HTML-Dokument (das DOM ist die Datenstruktur für ein HTML/XML-Dokument/Baum, mit dem Sie in Javascript arbeiten usw.). So können Sie nach ID und Klasse filtern, um Elemente zu finden. Ein Dependency-Parser wandelt in NLP unstrukturierten Text in eine baumähnliche Struktur um, die HTML ähnelt und deren Tags mit DOM-Selektorfiltern und XPath-Abfragen abgefragt werden können. – hobs