Ich habe es mit einer Anwendung zu tun, die Benutzereingaben in verschiedenen Sprachen akzeptiert (derzeit sind 3 Sprachen behoben). Die Anforderung besteht darin, dass Benutzer Text eingeben können und sich nicht darum kümmern, die Sprache über ein bereitgestelltes Kontrollkästchen in der Benutzeroberfläche auszuwählen.Wie erkennt man die Sprache des vom Benutzer eingegebenen Textes?
Gibt es eine bestehende Java-Bibliothek, um die Sprache eines Textes zu erkennen?
Ich möchte etwas wie folgt aus:
text = "To be or not to be thats the question."
// returns ISO 639 Alpha-2 code
language = detect(text);
print(language);
Ergebnis:
EN
Ich möchte nicht wissen, wie die Sprache Detektor von mir zu schaffen (i viele Blogs gesehen haben versucht, TU das). Die Bibliothek sollte ein einfaches APi bereitstellen und auch komplett offline arbeiten. Open-Source oder kommerzielle geschlossen ist nicht von Bedeutung.
Ich fand auch diese Fragen auf SO (und ein paar mehr):
How to detect language
How to detect language of text?
Bitte lesen Sie diese: http://stackoverflow.com/questions/1383503/how-to-determine-the-natural-language-of-a- Dokument –
@ S.Lott: Danke, ich lese schon viel, nur auf der Suche nach einer Arbeits-Lib, die offline arbeitet, will nichts selbst erstellen. – ManBugra
Zuverlässige Erkennung der natürlichen Sprache wird als ein schwieriges Problem angesehen. Jede Lösung, die in Ihren Coderaum und Ihre Festplatte passt, ist wahrscheinlich nicht sehr gut. –