2017-12-24 3 views
0

Sie müssen Datenanalyse und Erstellen von Visualisierung auf einem Datensatz durchführen, indem Sie Python-Skripte, RDD auf Pyspark-Framework ausführen. Wir suchen Hilfe, wenn wir dies auf AWS tun können, anstatt es auf einer lokalen Maschine (VM) zu tun.AWS-Setup zum Ausführen von Python-Skripten auf Apache pyspark env

Es scheint, dass wir einige Optionen in AWS mit EMR oder EC2 haben, aber nicht sicher über die Schritte und die damit verbundenen Preise, auch wenn wir mit kostenlosen Testversion für 12 Monate Option in AWS verfügbar gehen.

Kann mir bitte jemand helfen.

Antwort

0

Sie haben 2 Möglichkeiten hier bekam:

Option1: Sie können Ihre eigenen Instanzen auf AWS und die Einrichtung eines Hadoop-Cluster (Einzel nide oder Multi-Knoten auf der Grundlage Ihrer Bedürfnisse) und führen Sie das pyspark auf sie erstellen .

Option2: Sie können Amazon verwenden, sofern EMR (Elastic Map Reduce), die für Sie Cluster-Umgebung erstellen können, und Sie können dort Ihre pyspark Code ausführen.

Option 1 ist billiger, aber Sie müssen alles selbst konfigurieren. Option 2 ist teurer als Option 1, bietet Ihnen jedoch die Readymade-Umgebung.

Wenn Sie kostenlose Tier verwenden möchten, würde ich vorschlagen, für Option 1 zu gehen. Sie können Amazon Online-Rechner verwenden, um die Kosten zu vergleichen. Hier ist der Link für den Online-Rechner. aws online calculator

Verwandte Themen