Es hängt viel von den Details Ihrer Einrichtung ab. Zuerst wissen, dass 20GB in 4 Minuten 80MBps ist.
Der Engpass ist wahrscheinlich die Hardware Ihres lokalen Rechners oder seine Ethernet-Verbindung. Ich bezweifle, dass das Spielen mit Blockgröße Ihren Durchsatz erheblich verbessern wird.
Wenn Ihre lokale Maschine eine typische 7200rpm Festplatte hat, seine Platte Übertragungsrate zu puffern ist etwa 128 Mbps, was bedeutet, dass es in etwa 2.35 dass 20BG Datei in den Speicher geladen werden, könnte man 20GB unter der Annahme zu ersparen. Sie kopieren es jedoch nicht einfach in den Arbeitsspeicher, sondern streamen es aus dem Speicher in Netzwerkpakete. Daher ist es verständlich, dass Sie einen zusätzlichen Aufwand für die Verarbeitung dieser Aufgaben benötigen.
Siehe auch den Wikipedia-Eintrag auf wire speed, der eine schnelle Ethernet-Konfiguration bei 100 Mbit/s (~ 12 MB/s) setzt. Beachten Sie, dass in diesem Fall Fast Ethernet ein Begriff für eine bestimmte Gruppe von Ethernet-Standards ist. Sie erhalten eindeutig eine schnellere Rate als das. Die Drahtgeschwindigkeit ist ein gutes Maß, da sie alle Faktoren auf Ihrem lokalen Rechner berücksichtigt.
also lasst sie die verschiedenen Schritte in dem Streaming-Prozess auf dem lokalen Computer brechen:
- ein Stück aus der Datei gelesen und in den Speicher laden. Komponenten: Festplatte, Speicher
- Split und übersetzen Sie diesen Chunk in Pakete. Zuletzt habe ich gehört, dass Hadoop keine DMA Funktionen verwendet, daher werden diese Operationen von Ihrer CPU und nicht von der NIC durchgeführt. Komponenten: Speicher, CPU
- Pakete an Hadoop-Dateiserver senden.Komponenten: NIC, Netzwerk
Ohne mehr über Ihre lokale Maschine zu kennen, ist es schwer, welche diese Komponenten zu spezifizieren der Engpass ist. Dies sind jedoch die Orte, an denen man mit der Bitrate beginnt.
parallele Kopie So ausführen es ist derzeit 80 MB/s. Untersuchen Sie die Festplatte und die Netzwerk-E/A. Kann deine Festplatte/Netzwerk besser sein? Was ist deine genaue Einstellung? Eine einzelne Maschine oder ein Cluster? – harpun