Ich arbeite an der Korrektur von Fehlern in der Ausgabe von ASR-Systemen mit Data Mining und NLP-Techniken, dafür brauche ich ein N-Gramm-Wörterbuch. Ich habe mit wikipedia ngram angefangen, es gibt ermutigendes Ergebnis (75% Erkennungsrate) im kleinen Testset. Aber wenn ich meine Lösung auf einem großen Datensatz teste, sinkt die Erkennungsrate, weil das Wikipedia-Ngramm nicht groß genug ist, um alle englischen Wörter zu erfassen. Also suche ich nach größeren ngram, die ich aus dem Internet gesammelt habe, ich habe das "Google Web 1T 5-Grams" gefunden, aber mein Labor hat nicht genügend Ressourcen, um es zu kaufen. Wenn jemand diesen Datensatz bereits hat oder wissen, wie man ihn kostenlos erhält, bitte helfen Sie.Loking für freie ngram Dataset
0
A
Antwort
2
Die Google Ngram-Daten sind kostenlos verfügbar: http://storage.googleapis.com/books/ngrams/books/datasetsv2.html. Es ist mehr als ein Terabyte, aber es ist nach Jahr aufgeteilt, was für die meisten Anwendungsfälle nicht erforderlich ist, sodass Sie die Daten wahrscheinlich in einem kleineren Format zusammenfassen können. Es ist immer noch Text aus Büchern, der sich von dem unterscheidet, was die meisten Benutzer normalerweise in eine ASR eingeben.
Verwandte Themen
- 1. Edge NGram mit Phrasenabgleich
- 2. r ngram extraktion mit regex
- 3. Freischaltcode für freie Software-Lizenz
- 4. Ngram Frequenz-Ranking in Pyspark
- 5. Wie Edge-Ngram-Token-Filter unterscheidet sich von Ngram-Token-Filter?
- 6. Freie oder quelloffene Diagrammkomponente für C#?
- 7. Kennen Sie freie Satellitenbilder für GIS?
- 8. Freie oder Open Source Diagrammierungskomponente für WinForms
- 9. MonadError-Instanz für eine freie Monade
- 10. Wirklich schnelles Wort ngram Vektorisierung in R
- 11. Ngram-Modell und Perplexität in NLTK
- 12. Hinzufügen von Ngram zum vorhandenen Index
- 13. C++ Segregated freie Listen
- 14. Dataset Datenbank
- 15. ggplot2, facet_grid, freie Skalen?
- 16. Strukturelement freie Funktion
- 17. Ungültige freie() nach closedir()
- 18. Context freie Grammatik Umwandlung
- 19. Freie Kamera Y-Position
- 20. Freie Implementierung in scalaz
- 21. Sprache ohne freie Variablen
- 22. Verwenden von Dataset für Microsoft-Berichte
- 23. umformen Dataset
- 24. Dataset Visualizer
- 25. MySql Query Analyzer - freie Lösungen
- 26. Freie Liste mit variabler Länge
- 27. Freie C# Grid/Graph-Komponente
- 28. Boilerplate-freie Scala ArrayBuilder Spezialisierung
- 29. C# sperren freie Codierung Plausibilitätsprüfung
- 30. Was sind Ngram-Zählungen und wie mit nltk zu implementieren?
Vielen Dank, in der Tat habe ich bereits die Aggregation der Google Bücher NGRAM-Datensatz gestartet. – user3487059