2016-04-25 24 views
2

Ich arbeite an der Erkennung der Webseitensprache und es ist mir gelungen, den Inhalt einer Seite durch andere von mir entwickelte Middleware zu erhalten. da es keine Standardisierung des Inhaltsortes gibt. Wie auch immer, ich weiß nicht, wie ich die Sprache erkennen kann, die ich versucht habe, lang und xml: lang tag zu verwenden, aber sie sind nicht so effizient, wie ich es erwartet habe, weil ich gesehen habe, dass irgendeine Webseite eine andere Sprache als die im Tag angegebene hat Hilfe wird geschätzt? (environment java eclipse)Webseite Spracherkennung basierend auf dem Inhalt

Antwort

1

Dies ist ein klassisches Problem in NLP, und gibt ziemlich gute Vorhersagen. Dieser Beitrag sieht ähnlich aus wie dieser: link und habe da einige gute Antworten. Ich bin nicht vertraut mit den dort genannten Lösungen, aber ich habe den Apache Tika für eine andere Sache verwendet und es ist eine große Open Source. Hoffe, dass hilft ..

+0

Ich arbeite an Java und ich überprüfe bereits den Link, aber die Bibliothek, die sie verwiesen (speziell Sprachdetektor) hat ein Problem der Genauigkeit gibt es unterschiedliche Ergebnisse für den gleichen Text und unterstützt begrenzte Sprache –

Verwandte Themen