Nun, ich bin neu zu Mapreducer-Programmen. Wenn ich also ein Beispiel für mapreducer-Programme suche, bekomme ich nur ein Wortzahl-Programm. Alle Programme, die sich auf die Wortzahl beziehen, verwenden den Text als Eingabe. Ich habe versucht, eine CSV-Datei als Eingabe und der Reducer funktioniert nicht, wie es für Textdatei funktioniert. http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/ Dies ist das aktuelle Beispiel, das ich betrachte. Würde jemand den Grund dafür erklären?Mapreduce wordcount in python
0
A
Antwort
0
können Sie die collections.Counter Klasse verwenden:
from collections import Counter
with open(filename) as handler:
counter = Counter(handler.read().split())
print(counter.most_common(10))
Auf der Dokumentation Sie eine Menge nützlicher Informationen finden.
0
Unterscheiden zwischen
- MapReduce: ein Programmiermodell für die parallele Ausführung
- Python: eine Programmiersprache
- Hadoop: ein Python-Cluster-Plattform auf
laufen Haben Sie wirklich brauchen die MapReduce für Hadoop oder nur ein reines Python-Beispiel? Wenn das letztere, kann es viel einfacher als Ihr Link sein:
import multiprocessing
def word_count(line, delimiter=","):
"""Worker"""
summary = {}
for word in line.strip().split(delimiter):
if word in summary:
summary[word] += 1
else:
summary[word] = 1
return summary
pool = multiprocessing.Pool()
result = {}
# Map: each line to a separate worker
for summary in pool.imap_unordered(word_count, open("/path/to/file.csv")):
# Reduce: aggregate the result of each line into one result
for (word, count) in summary.items():
result[word] = result[word]+count if word in result else count
print(result)
+0
Da ich gerade an der Hadoop Plattform arbeite, würde ich gerne mehr über Map Reduce Programme erfahren. Daher würde ich gerne die Antwort in diesem Paradigma wissen. Danke für die Hilfe :) – SVRJ
Verwandte Themen
- 1. Mapreduce WordCount Beispiel mit falschem Ausgang
- 2. Konnte mein erstes Wordcount-Beispiel in mapreduce nicht ausführen
- 3. Versuchen Sie, ein grundlegendes WordCount MapReduce-Beispiel sinnvoll zu machen
- 4. Eingabepfad nicht vorhanden, während WordCount ausgeführt wird MapReduce
- 5. So lesen Sie Satz statt Zeile mit WordCount MapReduce Tutorial
- 6. Mapreduce Wordcount (Java-Code) auf Multi-Node-Cluster ausgeführt
- 7. Wordcount läuft nicht in Cloudera
- 8. Hadoop-Wordcount-Beispiel in R
- 9. Wordcount Programm stecken in Hadoop-2.3.0
- 10. MapReduce Fragen
- 11. Top N Rekord MapReduce auf Python
- 12. Cascading Wordcount Java-Task löst nullPointException
- 13. Hadoop Java Fehler: Ausnahme im Thread "main" java.lang.NoClassDefFoundError: WordCount (falscher Name: org/myorg/WordCount)
- 14. Hadoop MapReduce, Java-Implementierungsfragen
- 15. MapReduce java.lang.ArrayIndexOutOfBoundsException: 0
- 16. Hadoop MapReduce InputFormat veraltet?
- 17. Gegenseitige Wörter in Dateien mit hadoop mapreduce
- 18. MapReduce nach Wert sortieren in absteigender Reihenfolge
- 19. Iterative MapReduce
- 20. ckeditor wordcount aktivieren oder deaktivieren?
- 21. Eclipse MapReduce Fehler: UnModifyableMap
- 22. MapReduce meldet sich an Intellij idea console
- 23. Fehler beim Festlegen von job.setInputFormatClass in Mapreduce
- 24. MapReduce erzeugt keine Ausgabe
- 25. Fehler in Hadoop MapReduce
- 26. Fehler in JSON MapReduce
- 27. Mapreduce in mongodb
- 28. MapReduce-Implementierung in Scala
- 29. Cross-Produkt in MapReduce
- 30. Sequenznummern in mapreduce
Vielen Dank für die Hilfe. Aber meine Zweifel sind anders. Ich versuche, an mapreduce-Programmen zu arbeiten. – SVRJ