Das von der Bibliothek EventHubutils generierte Prozessverzeichnis erstellt viele kleine Dateien in hdfs. https://github.com/Azure/spark-eventhubs/blob/master/docs/direct_stream.md. Aufgrund dieser kleinen Dateien wird der Name-Knoten stark belastet. Gibt es eine Möglichkeit, das Fortschritts-Verzeichnis zu löschen, ohne die Funken-Anwendung zu stören.So löschen Sie das von der Anwendung "sparkstreaming" generierte Fortschrittsverzeichnis Empfangen von Nachrichten von eventhub
0
A
Antwort
0
Per meiner Erfahrung, wenn Ihre aktuelle Aufgabe ausgeführt wird, kann die resultierende Datei kann nicht gelöscht werden.
Hier bieten wir zwei Möglichkeiten zum Löschen von Dateien ohne Code für Ihre Referenz.
Erster Weg:
Da die Dateien auf dem HDFS
auf azure blob storage container
gefunden werden, können Sie sie löschen direkt auf dem Azure-Portal. Wenn Sie Dateien nicht einzeln löschen möchten, können Sie mit dem Werkzeug Azure Storage Explorer alle zu löschenden Dateien auswählen.
Zweiter Weg:
Sie können mit dem Cluster-Maschine anmelden und nutzen die rm command line:
hadoop fs -rm [-f] [-r |-R] [-skipTrash] URI [URI ...]
Sie können die entsprechenden azure blob storage container
Pfad im configuration file finden.
wasbs://[email protected]/testDir/testFile.
Ich hoffe, es hilft Ihnen.
Verwandte Themen
- 1. Empfangen von Nachrichten von GCM
- 2. Empfangen von Nachrichten von Client-
- 3. So senden/empfangen Sie SMS-Nachrichten von der C# -Anwendung mit dem Nokia Mobiltelefon
- 4. Empfangen von Benachrichtigungen von Slack Direct-Nachrichten
- 5. So senden und empfangen Sie Broadcast-Nachrichten
- 6. Abrufen von Daten von EventHub ist verzögert
- 7. Löschen von Nachrichten JSQMessagesViewController
- 8. Empfangen von Nachrichten in angularjs Chat-Anwendung ohne Aktualisierung.
- 9. Wie Client-Anwendung für das Vertrauen von Nachrichten von ihm
- 10. Wie wird das Senden von Nachrichten auf der rechten Seite und das Empfangen von Nachrichten auf der linken Seite angezeigt?
- 11. Empfangen von GTalk Nachrichten in eigener App?
- 12. Azure EventHub Absender nicht zum Senden von Nachrichten
- 13. Empfangen von SMS-Nachrichten per Webanwendung
- 14. Android Empfangen von Nachrichten außer Broadcast-Empfänger
- 15. Empfangen von Offline-Nachrichten mit Quickblox
- 16. Senden und Empfangen von Broadcast-Nachrichten
- 17. So verwenden Sie AWS IoT zum Senden/Empfangen von Nachrichten an/von Webbrowser
- 18. Testing Rundfunk und Empfangen von Nachrichten
- 19. Empfangen von Nachrichten mit Twilio und Meteor
- 20. Stream-Buchse Senden/Empfangen von Broadcast-Nachrichten?
- 21. Senden von UDP-Broadcast, Empfangen mehrerer Nachrichten
- 22. Empfangen von Multicast-Nachrichten mit UDPClient
- 23. Empfangen von Nachrichten vom Client in Unity
- 24. So empfangen Sie Daten von Ember senden
- 25. Empfangen von Nachrichten zurück zu meiner Plattform
- 26. Empfangen und Empfangen von Nachrichten über einen Port
- 27. Logic App nicht Empfangen von Nachrichten
- 28. Spring-Integration: Empfangen von Nachrichten von mehreren JMS-Destinationen
- 29. Empfangen von Cloud-to-Device-Nachrichten von Azure an esp8266
- 30. Der Treiber von RabbitMQ C# hört auf, Nachrichten zu empfangen
Wollen Sie also die Dateien löschen, die älter als die Aufbewahrungsfrist des Ereignis-Hubs sind? Wird es kein Problem für den kontinuierlich laufenden Spark-Streaming-Job geben? –
@sivakrishna Aus dem Code, den Sie angeboten haben (https://github.com/Azure/spark-eventbubs/blob/228e1b4ef8c73ddb7e9e44c4216a86f1f3912e9e/core/src/test/scala/org/apache/spark/sql/streaming/eventbubs/EventHubsStreamTest.scala # L423), merke ich, dass die Generate-Dateien Timestamp haben. Sie könnten Dateien bereinigen, die Sie aufgrund des Zeitstempels nicht verwenden. –