2016-07-21 9 views
1

Ich schaute durch die documentation und Testen Google's Natural Language API und bemerkte, dass es eine Reihe von Menschen, Veranstaltungen, Organisationen und Standorten inkorrekt - es scheint, Wikipedia als eine wichtige Datenquelle zu verwenden, so wenn es nicht in Wikipedia scheint es zu haben Probleme beim Identifizieren der Art der verschiedenen Wörter. Wenn bestimmte Wörter in einem Namen (Eigenname) erscheinen, scheint es immer eine Entität als einen bestimmten Typ zu identifizieren, der nicht immer korrekt ist.Zug oder benutzerdefinierte Word-Entitätstypen?

Zum Beispiel: "Kongress" scheint immer als eine Organisation [Regierung] zu identifizieren, auch wenn es Teil eines Ereignisses ist. Der Name "WordCamp" wird als Ort angezeigt, ist aber ein Ereignis.

Gibt es eine Möglichkeit, die Engine für natürliche Sprache zu trainieren oder einen benutzerdefinierten Satz von Organisationen, Standorten, Ereignissen usw. bereitzustellen, damit genauere Typinformationen für Entitäten bereitgestellt werden, die nicht besonders beliebt sind?

Antwort

1

Ich bin der Produktmanager für dieses Produkt. Benutzerdefinierte Entitätstypen werden derzeit nicht unterstützt. Laut Ihrem Kommentar, dass einige Entity-Typen nicht richtig sind, gilt dies für jedes NLP-System, aber unser Ziel ist es, immer besser zu werden. Wir arbeiten an Möglichkeiten, wie Sie uns Feedback geben können, wenn wir Fehler bekommen, um unsere Genauigkeit zu verbessern, und wir werden die Details in Kürze teilen. Beachten Sie, dass wir unsere Modelle auf mehreren Datenquellen und nicht nur auf Wikipedia-Daten trainiert haben. Die API gibt den relevantesten Wikipedia-Artikel für eine erkannte Entität zurück. Wenn eine Entität mehrere Interpretationen aufweist, geben wir nur die am häufigsten verwendete Interpretation zurück.

+0

Danke für die Erklärung – Jim

+0

@Apoorv Irgendwelche Updates zu diesem Thema? –

+0

Bleiben Sie dran für zukünftige Updates. –

Verwandte Themen