Ich muss Trainingsdatensatz für das Projekt zur Erkennung namentlich bekannter Entitäten erstellen.Datensatz für die Erkennung der benannten Entität
Zum Beispiel habe ich Text
"Last year, I was in London where I saw Tom"
Trainingsdaten
sollten"Last year, I was in <ENAMEX TYPE="LOCATION">London</ENAMEX> where I saw
<ENAMEX TYPE="NAME">Tom</ENAMEX>"
Es ist einfach, es von Hand zu tun, aber es braucht Zeit, wenn es eine große Anzahl von Daten ist. Ich kann kein offenes Set verwenden. Ich habe kleine Trainingsdaten, aber ich sollte es erweitern.
Wie kann ich einen größeren Trainingsdatensatz erstellen, indem ich kleine Trainingsdatensätze erweitere? Gibt es einige fertige Pakete oder offene Projekte dafür? Oder schlagen Sie verschiedene Methoden vor?