2017-11-11 5 views
1

Guten Morgen, es klingt vielleicht wie eine dumme Frage, aber ich möchte auf eine temporäre Tabelle in Spark von RStudio zugreifen. Ich habe keinen Spark-Cluster, und ich lasse nur alles lokal auf meinem PC laufen. Wenn ich Funken durch IntelliJ starten, wird die Instanz läuft gut:Verwenden von RStudio-Sparklyr zum Verbinden mit lokalen Spark von IntelliJ bereitgestellt

17/11/11 10:11:33 INFO Utils: Successfully started service 'sparkDriver' on port 59505. 
17/11/11 10:11:33 INFO SparkEnv: Registering MapOutputTracker 
17/11/11 10:11:33 INFO SparkEnv: Registering BlockManagerMaster 
17/11/11 10:11:33 INFO BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information 
17/11/11 10:11:33 INFO BlockManagerMasterEndpoint: BlockManagerMasterEndpoint up 
17/11/11 10:11:33 INFO DiskBlockManager: Created local directory at C:\Users\stephan\AppData\Local\Temp\blockmgr-7ca4e8fb-9456-4063-bc6d-39324d7dad4c 
17/11/11 10:11:33 INFO MemoryStore: MemoryStore started with capacity 898.5 MB 
17/11/11 10:11:33 INFO SparkEnv: Registering OutputCommitCoordinator 
17/11/11 10:11:33 INFO Utils: Successfully started service 'SparkUI' on port 4040. 
17/11/11 10:11:34 INFO SparkUI: Bound SparkUI to 0.0.0.0, and started at http://172.25.240.1:4040 
17/11/11 10:11:34 INFO Executor: Starting executor ID driver on host localhost 
17/11/11 10:11:34 INFO Utils: Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 59516. 
17/11/11 10:11:34 INFO NettyBlockTransferService: Server created on 172.25.240.1:59516 

Aber ich bin mir nicht sicher über den Hafen, ich habe in RStudio/sparklyr wählen:

sc <- spark_connect(master = "spark://localhost:7077", spark_home = "C://Users//stephan//Downloads//spark//spark-2.2.0-bin-hadoop2.7", version = "2.2.0") 
Error in file(con, "r") : cannot open the connection 
In addition: Warning message: 
In file(con, "r") : 
    cannot open file 'C:\Users\stephan\AppData\Local\Temp\Rtmp61Ejow\file2fa024ce51af_spark.log': Permission denied 

Ich habe versucht, verschiedene Häfen , wie 59516, 4040, ... aber alle führten zum selben Ergebnis. Die Erlaubnis verweigert Nachricht Ich denke, kann aufgrund ignoriert werden, dass die Datei geschrieben wird fein:

17/11/11 01:07:30 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master localhost:7077 

Kann mir jemand bitte helfen, wie ich eine Verbindung zwischen einem lokalen Lauf Funken- und RStudio herstellen können, aber ohne, dass RStudio läuft eine andere Spark-Instanz?

Dank Stephan

Antwort

0

Standalone-Spark-Cluster zu betreiben ist nicht das Gleiche wie Spark in local Modus in Ihrem IDE ausgeführt, die hier wahrscheinlich der Fall ist. local Modus erstellt keine persistenten Dienste.

  • Herunterladen Spark-Binärdateien:

    Um Ihre eigenen "pseudodistributed" Cluster ausgeführt.

  • Starten Sie Spark-Master mit $SPARK_HOME/sbin/start-master.sh Skript.
  • Starten Sie Spark-Mitarbeiter mit $SPARK_HOME/sbin/start-slave.sh Skript und übergeben Master-URL.

Um Tabellen gemeinsam nutzen zu können, benötigen Sie auch einen richtigen Metastore (nicht Derby).

+0

Ich sehe. Das ist schade :( Ich folgte diesem Thread über die Ausführung lokal: https://StackOverflow.com/Questions/36593446/Failed-To-Start-Master-For-Spark-in-Windows und änderte meine Konfiguration in "Spark: //172.25.240.1:7077 ". Wenn ich meine Anwendung jetzt starte, wird sie kontaktiert, aber der StreamingContext funktioniert nicht mehr. Er wird von streamingContext.start() und streamingContext.awaitTermination() ausgeführt. Solange Ich führe dies in Intellij, es fängt den Stream. Btw. Der Stream ist eigentlich nur ein lokaler Socket-Stream, den ich selbst generiert habe – Stephan

Verwandte Themen