2016-04-23 10 views
0

Ich muss ein 27 Giga-Dataset direkt in meinem azurblauen Konto laden und entpacken, um mit einer Spark-Instanz mit der textFile-Funktion daran zu arbeiten, etwas maschinelles Lernen zu machen. Wie kann ich es tun?Download und entpacken Datensatz direkt in Azure

Ich würde gerne mehr schreiben, aber ich habe so viele Stunden damit verbracht, im Internet zu surfen und trotzdem kann ich nichts Nützliches erreichen.

Dies ist der Datensatz:

https://academicgraphwe.blob.core.windows.net/graph-2016-02-05/index.html

Antwort

1

Wenn unmittelbar von diesem Standort aus zu Ihrem VM bedeutet, dann ist die einfachste Art und Weise, meiner Meinung nach, ist AzCopy zu verwenden.

Zum Beispiel in Ihrem Fall kann es so sein: AzCopy/Quelle: https://academicgraphwe.blob.core.windows.net/graph-2016-02-05//Ziel: C: \ myfolder/SOURCEKEY: key /Pattern:"abc.txt“

installieren AzCopy auf Ihrer VM und führe den Befehl aus. Sie brauchen hier keinen SourceKey, da es so aussieht, als wäre Ihr Dataset im öffentlich verfügbaren Blob. Aber ändere deine Verbindung zum benötigten Ort (weil es zu einer Art Liste von Links geht).

+0

Ich habe es manuell mit ssh getan. Jetzt, wo ich die .txt-Dateien in meiner Ubuntu-VM habe, wie kann ich diese .txt in Blobspeicher speichern? – Aalto

+0

http://storageexplorer.com/ läuft unter Linux und der einfachste Weg, um etwas von lokalen CD auf azure Blob hochzuladen. –

+0

Ich muss es auf meinem lokalen Rechner installieren und alle meinen Speicher remote verwalten, direkt ohne ssh oder irgendetwas anderes, nicht wahr? – Aalto

Verwandte Themen