2017-02-08 4 views
0

Wo finde ich einen solchen Korpus? Ich benötige dies, um einen Sprachdetektor zwischen Hindi und Englisch auf Token- (Wort-) Ebene aufzubauen.Großer Korpus von Hindi Text in römischer Schrift

Zum Beispiel wäre so etwas wie die Hindi Wikipedia im lateinischen Alphabet sehr nützlich. Oder Kurzgeschichten, Social Media Posts oder Tweets oder Blogs? Irgendwelche Ideen?

Bestehende Transliterations-Motoren sind nicht so gut, soweit ich das beurteilen kann. Wenn es einen gibt, der gut ist, wird das auch in Betracht ziehen.

+1

Rollen Sie Ihr eigenes Transliterations-Dienstprogramm, zum Beispiel nach den Regeln des [International Alphabet of Sanskrit Transliteration] (https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration). AFAIK, indische Sprachtexte werden fast nie mit dem lateinischen Alphabet geschrieben; Transliteration wird nur für Namen und isolierte Wörter oder kurze Fragmente in Büchern verwendet, die in einer Sprache geschrieben sind, die ein nicht-indisches Alphabet verwendet. – AlexP

+0

Im letzten Jahrzehnt wird "Romanagiri" (Roman Script Hindi) ubiquitär in Instant Messaging und sozialen Medien verwendet. Allerdings gibt es in dieser Sprache keine Bücher oder strukturierteren Texte. Ihr Vorschlag ist in der Tat meine Grundlinie, aber sie ist nicht gut genug, weil sie der Transliteration nicht gut genug entspricht. – ashu

+1

Siehe "[Romanagari Erkennung in Twitter] (http://home.iitk.ac.in/~hrishirt/cs671/project/report.pdf)" von Hrishikesh Terdalkar und Shubhangi Agarwal, IIT Kanpur (2015); vielleicht kann der Abschnitt über Datensätze helfen. E-Mail-Adressen der Autoren sind auf einem [Poster] (http://home.iitk.ac.in/~hrishirt/cs671/project/poster.pdf) angegeben. – AlexP

Antwort

1

Sie können versuchen, hindibible.org einfach wget verwenden, um ihre Website herunterladen und Sie werden ganze Bibel in transliterierten Hindi bekommen. Kannst du mir helfen, ihren Text in devnagri zu lesen? Ihre Website zeigt Text in Hindi, aber die HTML-Dateien, die ich heruntergeladen habe, sind in transliteriertem Englisch. Und ich möchte in der Lage sein, diese transliterierten HTML-Dateien in devnagri zu lesen, falls die Webseite beschließt, ihre Server herunterzufahren.