Ich habe eine Reihe von 100 GB-Dateien auf HDFs mit gemischten Datei-Kodierungen (leider in Azure-Blob-Speicher). Wie kann ich die Dateicodierung jeder Datei bestimmen? Einige dfs-Kommandozeilenbefehle wären ideal. Vielen Dank.Wie kann die Dateicodierung der Datei in hdfs (Azure Blob Storage) bestimmt werden?
0
A
Antwort
1
Ich landete immer die Ergebnisse, ich kochend den Anfang jeder Datei in Blob Speichern in einem lokalen Puffer und dann die file
Unix-Dienstprogramm Anwendung benötigt. Hier ist, was der Befehl wie für eine einzelne Datei aussieht:
hdfs dfs -cat wasb://[email protected]/path/to/file | head -n 10 > buffer; file -i buffer
Diese bekommt man so etwas wie:
buffer: text/plain; charset=us-ascii
0
können Sie versuchen, https://azure.microsoft.com/en-us/documentation/articles/xplat-cli-install/
Der Befehl azure storage blob list
und azure storage blob show
werden alle verfügbaren blob Eigenschaften einschließlich content, ContentLength, Metadaten zurück.
Wenn diese Informationen nicht enthalten was Sie wollen - Datei-Kodierungen, ich denke, Sie müssen Ihre eigenen wie file-encoding
für jede Dateien definieren/einstellen. Dann können Sie es über das CLI-Tool zurückholen.
Verwandte Themen
- 1. Cache die Verbindung zum Azure Blob Storage
- 2. Alternative für Azure Blob Storage
- 3. Azure Blob Storage-Sicherheitsoptionen in MVC
- 4. Eine einzelne Datei in Blob Storage Azure hochladen
- 5. Wie man ein Datei-Browser von Azure Blob Storage
- 6. Facing Azure Storage Blob mit sFTP-Dienst
- 7. Datei direkt vom Browser in Azure Blob Storage hochladen?
- 8. azure Blob Storage Protokollierung/Analyse GUI Tool?
- 9. Azure Blob Storage URL: WASB: // vs HTTP: //
- 10. Wie kann die Azure Table Storage-Latenz verringert werden?
- 11. Azure Storage Simulator Leistungsprobleme
- 12. Hochladen und Herunterladen von Bildern in Azure Blob Storage
- 13. Azure Blob Storage Hochladen - Sonderzeichen, die als Fragezeichen hochgeladen werden ??. Jpg
- 14. Kann Azure Storage File Shares kopiert werden?
- 15. Kann die Größe der herunterzuladenden Datei bestimmt werden?
- 16. Verhindern der Verknüpfung in Azure Blob-Speicher
- 17. Speichern und Abrufen von Bildern aus Azure Blob Storage + SQL
- 18. Hochladen zu Azure Blob Storage mit Shared Access Key
- 19. Abrufen der neuesten Datei von Azure Blob
- 20. wie blob-URL nach dem Hochladen der Datei in azure
- 21. Wie wird Azure Storage implementiert?
- 22. Azure Blob Storage langsam Verwenden von FileStreamResult Controller.File
- 23. Datei herunterladen von Azure Blob Speicher
- 24. Azure Blob Storage Indexer schlägt bei Bildern fehl
- 25. Azure Blob Speicher und CDN
- 26. Zugriff auf Azure Blob Storage über eine VB6-App
- 27. Sicherung/Wiederherstellung Blob in Azure
- 28. Azure-Blob-Speicher: Der Blob mit der Größe 0 kann nicht hochgeladen werden.
- 29. Wie wird die Liste der Azure Blob-Dateien rekursiv geladen?
- 30. Wie bestimmt MSTest die Reihenfolge, in der Testmethoden ausgeführt werden?
Haben Sie die „Content-Encoding“, wenn Sie die Dateien hochladen? Wenn ja, können Sie es aus den Eigenschaften der Blobs erhalten. Wenn dies nicht der Fall ist, können Sie einen Teil eines Blobs als Binärdatei erhalten und ein Kodierungserkennungsprogramm verwenden, um die Kodierung des Blobs zu erraten. Hier ist ein Python-Paket zum Erkennen der Kodierung: [chardet] (https://pypi.python.org/pypi/chardet) –