Ich habe Movelens Dataset von diesem Hyperlink ml-100k.zip heruntergeladen (es ist ein Film und Benutzerinformationen Dataset und es ist in der älteren Dataset-Registerkarte) und ich habe schreiben einfacher MapReduce-Code wie unten;So integrieren Sie Daten mit Python-Code vor dem Ausführen von Python-Programm in der Befehlszeile
from mrjob.job import MrJob
class MoviesByUserCounter(MRJob):
def mapper(self , key ,line):
(userID,movieID,rating,timestamp)=line.split('\t')
yield userID,movieID
def reducer(self , user , movies):
numMovies=0
for movie in movies:
numMovies=numMovies+1
yield user,numMovies
if __name__=='__main__':
MoviesByUserCounter.run()
Ich benutze Python 3.5.3 Version und PyCharm Community Edition als Python-IDE.
Ich habe auf der Kommandozeile versucht
python my_code.py
aber es, wie ich es erwartet nicht funktioniert tatsächlich funktioniert, aber es wartet sowieso nicht Antwort. es für eine Weile in Betrieb war eigentlich ist es immer noch on.it auf die Linie nur Befehl gehen schreibt:
Running step 1 of 1...
reading from STDIN
Wie kann ich den Daten geben (u.data: es ist die Datendatei, die in den ML- 100k.zip) in meinem Python-Programmcode erfolgreich auf der Kommandozeile? Wenn es andere Lösungen gibt, wird es auch großartig.
Vielen Dank im Voraus.
https://pythonhosted.org/mrjob/guides/quickstart.html#running-your-job-diffter-ways-ways – Goyo
Vielen Dank Goyo aber bevor ich fragte, habe ich sie auch ausprobiert. es hat nicht wieder funktioniert. – pcpcne
Sie könnten das [argparse module] (https://pypi.python.org/pypi/argparse) –