Wo finde ich einen solchen Korpus? Ich benötige dies, um einen Sprachdetektor zwischen Hindi und Englisch auf Token- (Wort-) Ebene aufzubauen.Großer Korpus von Hindi Text in römischer Schrift
Zum Beispiel wäre so etwas wie die Hindi Wikipedia im lateinischen Alphabet sehr nützlich. Oder Kurzgeschichten, Social Media Posts oder Tweets oder Blogs? Irgendwelche Ideen?
Bestehende Transliterations-Motoren sind nicht so gut, soweit ich das beurteilen kann. Wenn es einen gibt, der gut ist, wird das auch in Betracht ziehen.
Rollen Sie Ihr eigenes Transliterations-Dienstprogramm, zum Beispiel nach den Regeln des [International Alphabet of Sanskrit Transliteration] (https://en.wikipedia.org/wiki/International_Alphabet_of_Sanskrit_Transliteration). AFAIK, indische Sprachtexte werden fast nie mit dem lateinischen Alphabet geschrieben; Transliteration wird nur für Namen und isolierte Wörter oder kurze Fragmente in Büchern verwendet, die in einer Sprache geschrieben sind, die ein nicht-indisches Alphabet verwendet. – AlexP
Im letzten Jahrzehnt wird "Romanagiri" (Roman Script Hindi) ubiquitär in Instant Messaging und sozialen Medien verwendet. Allerdings gibt es in dieser Sprache keine Bücher oder strukturierteren Texte. Ihr Vorschlag ist in der Tat meine Grundlinie, aber sie ist nicht gut genug, weil sie der Transliteration nicht gut genug entspricht. – ashu
Siehe "[Romanagari Erkennung in Twitter] (http://home.iitk.ac.in/~hrishirt/cs671/project/report.pdf)" von Hrishikesh Terdalkar und Shubhangi Agarwal, IIT Kanpur (2015); vielleicht kann der Abschnitt über Datensätze helfen. E-Mail-Adressen der Autoren sind auf einem [Poster] (http://home.iitk.ac.in/~hrishirt/cs671/project/poster.pdf) angegeben. – AlexP