Ich möchte ein ziemlich großes Dokument lesen und extrahieren N-Gramm (Kontinuierliche Folge von N Worten) daraus. Ich möchte es auch in aufsteigender Reihenfolge der Häufigkeit sortieren. Während ich verstehe, dass dies eine Erweiterung der Wortzahl ist, bin ich nicht sicher, wie man das in Pyspark macht. Jede Hilfe wird geschätzt.Ngram Frequenz-Ranking in Pyspark
0
A
Antwort
0
Eine mögliche Lösung mit toolz
from toolz.curried import sliding_window
from operator import add, itemgetter
rdd = sc.textFile("README.md")
tokens = rdd.map(str.split)
counts = (tokens
.flatMap(sliding_window(3))
.map(lambda x: (x, 1))
.reduceByKey(add))
counts.top(3, key=itemgetter(1))
## [(('command,', 'which', 'should'), 2),
## (('on', 'how', 'to'), 2),
## (('Please', 'refer', 'to'), 2)]
Einschränkung dieses Ansatzes ist so ziemlich das gleiche wie üblich - es für Zeile auf der Leitung arbeitet so, wenn Dokumente über mehrere Zeilen erstreckt werden Sie nicht n-Gramm erhalten die über Liniengrenzen gespannt ist.
Es ist möglich, dies zu korrigieren, indem Sie die Zeilennummer und Position in Zeile verfolgen oder wholeTextFiles
verwenden.
Verwandte Themen
- 1. Edge NGram mit Phrasenabgleich
- 2. r ngram extraktion mit regex
- 3. Loking für freie ngram Dataset
- 4. Ngram-Modell und Perplexität in NLTK
- 5. Wirklich schnelles Wort ngram Vektorisierung in R
- 6. Wie Edge-Ngram-Token-Filter unterscheidet sich von Ngram-Token-Filter?
- 7. Hinzufügen von Ngram zum vorhandenen Index
- 8. Zufallszahlen Generation in PySpark
- 9. Trans RDD in PySpark
- 10. Column Filterung in PySpark
- 11. Passing-Funktion in pyspark
- 12. MaxParkettblockgröße in PySpark angeben
- 13. Explode in PySpark
- 14. .Cartesian() in PySpark
- 15. Importieren Pyspark Fehler Pyspark mit Python 3.5.1
- 16. Wie man alle Wörter in einem ngram, mit quanteda eindrücken?
- 17. PySpark PicklingError
- 18. PySpark Druck
- 19. PySpark Auswertung
- 20. pyspark mit
- 21. pyspark: Randomize Zeilen in Datenrahmen
- 22. to.JSON() in Funken Verwendung pyspark
- 23. Filterung zwei RDD in pyspark
- 24. Arbeiten mit Reißverschlüssen in pyspark
- 25. Referenzierung Spalten in Pyspark Dataframe
- 26. Berechnung gewichteten Mittelwert in PySpark
- 27. RDD in iterable konvertieren: PySpark?
- 28. Abwechselnd kleinster Fehler in pyspark
- 29. Pyspark String in Datumsformat konvertieren
- 30. Zufallsauswahl in pyspark mit ersatz