2017-08-22 3 views
0

Ich muss Trainingsdatensatz für das Projekt zur Erkennung namentlich bekannter Entitäten erstellen.Datensatz für die Erkennung der benannten Entität

Zum Beispiel habe ich Text

"Last year, I was in London where I saw Tom" 

Trainingsdaten

sollten
"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw 
<ENAMEX TYPE="NAME">Tom</ENAMEX>" 

Es ist einfach, es von Hand zu tun, aber es braucht Zeit, wenn es eine große Anzahl von Daten ist. Ich kann kein offenes Set verwenden. Ich habe kleine Trainingsdaten, aber ich sollte es erweitern.

Wie kann ich einen größeren Trainingsdatensatz erstellen, indem ich kleine Trainingsdatensätze erweitere? Gibt es einige fertige Pakete oder offene Projekte dafür? Oder schlagen Sie verschiedene Methoden vor?

Antwort

0

Erstens, wenn Sie nicht bereits sind, verwenden Sie ein Werkzeug wie brat, um das Kommentieren schneller zu machen.

Da es so aussieht, als würden Sie Token markieren, die nur auf eine Art verwendet werden, können Sie eine Liste von ihnen erstellen und sie automatisch kommentieren. Zum Beispiel ist London immer ein Platz, an dem Sie alle Instanzen von London durch <ENAMEX TYPE="LOCATION">London</ENAMEX> ersetzen können. Achten Sie auf Fälle, in denen dies nicht funktioniert, wie die Türkei oder China (We ate turkey sandwiches off china plates.).

Es gibt ein Projekt namens Prodigy in der Beta, das dafür entworfen wurde, Models auf den Boden zu bringen, obwohl ich noch keine Gelegenheit hatte es zu versuchen, aber es sollte einen Blick wert sein.

Verwandte Themen