2016-03-22 8 views
0

Ich arbeite an der Korrektur von Fehlern in der Ausgabe von ASR-Systemen mit Data Mining und NLP-Techniken, dafür brauche ich ein N-Gramm-Wörterbuch. Ich habe mit wikipedia ngram angefangen, es gibt ermutigendes Ergebnis (75% Erkennungsrate) im kleinen Testset. Aber wenn ich meine Lösung auf einem großen Datensatz teste, sinkt die Erkennungsrate, weil das Wikipedia-Ngramm nicht groß genug ist, um alle englischen Wörter zu erfassen. Also suche ich nach größeren ngram, die ich aus dem Internet gesammelt habe, ich habe das "Google Web 1T 5-Grams" gefunden, aber mein Labor hat nicht genügend Ressourcen, um es zu kaufen. Wenn jemand diesen Datensatz bereits hat oder wissen, wie man ihn kostenlos erhält, bitte helfen Sie.Loking für freie ngram Dataset

Antwort

2

Die Google Ngram-Daten sind kostenlos verfügbar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html. Es ist mehr als ein Terabyte, aber es ist nach Jahr aufgeteilt, was für die meisten Anwendungsfälle nicht erforderlich ist, sodass Sie die Daten wahrscheinlich in einem kleineren Format zusammenfassen können. Es ist immer noch Text aus Büchern, der sich von dem unterscheidet, was die meisten Benutzer normalerweise in eine ASR eingeben.

+0

Vielen Dank, in der Tat habe ich bereits die Aggregation der Google Bücher NGRAM-Datensatz gestartet. – user3487059