2017-04-26 5 views
2

Ich habe versucht, die Datei von der Yelp Dataset Herausforderung Website zu öffnen (https://www.yelp.com/dataset_challenge). Ich habe das erfolgreich gemacht, aber ich kann die Datei nicht öffnen, da sie keine Erweiterung hat. Es ist ungefähr 4 GB. Ich dachte, es könnte eine JSON-Datei gewesen sein, denn wenn ich in der Vergangenheit gesucht habe, war es das. Ich kann jedoch nicht herausfinden, wie man das öffnet oder es in CSV konvertiert. Ich würde gerne eine Analyse mit Python für diese Daten verwenden. Kann mir jemand helfen? Vielen Dank.Yelp Dateityp

Antwort

1

Ich hatte das gleiche Problem. Es stellt sich heraus, dass die Datei im tar (die ohne die Erweiterung) auch eine TAR-Datei ist - also ist der Download im Grunde eine TAR-Datei in einer TAR-Datei. Fügen Sie nach dem Extrahieren der ursprünglichen Datei die tar-Erweiterung hinzu und extrahieren Sie sie anschließend. Nach dem Extrahieren haben Sie alle verschiedenen JSON-Dateien für den Datensatz.

+0

Wow! Das hat funktioniert! Vielen Dank. Ich habe das als Antwort akzeptiert. Das funktioniert perfekt. Danke nochmal. –

1

Das github-Projekt für Yelp-Dataset-Beispiele enthält einige Beispiele. Einer davon ist "json_to_csv_converter", der Ihnen dabei helfen soll, das zu tun, was Sie verlangen.

Yelp's Academic Dataset Examples

Lassen Sie mich wissen, ob das hilft!

+0

Ich sah mir das an, aber ich hatte den Eindruck, dass es eine JSON-Datei sein musste. Ich werde es versuchen und ich werde sehen, ob das funktioniert. Vielen Dank. –

+0

von dem, was ich den Download sagen kann, ist eine TAR-Datei (komprimiert wie ein ZIP-Ordner). Möglicherweise müssen Sie den Inhalt extrahieren, bevor Sie die Datasets anzeigen können. Stellen Sie sicher, dass auf Ihrem Computer alle Dateierweiterungen angezeigt werden. Ich habe mir die Daten nicht selbst angesehen, aber es klingt so, als hätte sie eine Erweiterung, die einfach nicht auf Ihrem Computer angezeigt wird. Ich könnte falsch liegen, aber das ist mein Bauchgefühl. –

+0

Ich habe 7-zip verwendet, um es zu extrahieren. Ich bin mir nicht sicher, ob das das richtige Werkzeug ist oder nicht. Es schien zu funktionieren, aber dann kam die Datei ohne Erweiterung heraus. Ich wollte versuchen, den Inhalt in einer Art Klartext anzuzeigen, aber die Datei ist zu groß. Wenn ich es in einer IDE wie pycharm öffne, fragt es, um welche Art von Datei es sich handelt, und wenn ich Text oder JSON auswähle, wird es immer noch mit einer Menge seltsamer Zeichen angezeigt. Danke für Ihre Antwort. –