2016-07-21 4 views
0

Ich bin gespannt, wie eine TSV-Datei aussehen sollte, wenn wir Daten aus einer lokalen TSV-Datei mit DRUID aufnehmen.Wie sollte eine TSV-Datei in DRUID formatiert werden?

Sollte es wie sein:

Bitte beachten Sie, das nur zum Testen ist:

quickstart/sample_data.tsv Datei:

Name Nachname E-Mail-Zeit Bob Jones bobj @ gmail.com 1468839687 Billy Jones [email protected] 1468839769

Wo dieser Teil ist meine Dimensionen: Name Nachname E-Mail
Und dieser Teil ist meine tatsächlichen Daten: Bob Jones [email protected] 1468839687 Billy Jones [email protected] 1468839769

{ 
     "type" : "index_hadoop", 
    "spec" : { 
     "ioConfig" : { 
         "type" : "hadoop", 
      "inputSpec" : { 
       "type" : "static", 
       "paths" : "quickstart/sample_data.tsv" 
      } 
     }, 
     "dataSchema" : { 
      "dataSource" : "local", 
      "granularitySpec" : { 
       "type" : "uniform", 
         "segmentGranularity" : "hour", 
         "queryGranularity" : "none", 
         "intervals" : ["2016-07-18/2016-07-18"] 
      }, 
      "parser" : { 
       "type" : "string", 
       "parseSpec" : { 
        "format" : "tsv", 
        "dimensionsSpec" : { 
         "dimensions" : [ 
          "name", 
          "lastname", 
          "email" 
         ] 
        }, 
        "timestampSpec" : { 
           "format" : "auto", 
         "column" : "time" 
        } 
       } 
      }, 
      "metricsSpec" : [ 
       { 
        "name" : "count", 
        "type" : "count" 
       }, 
       { 
        "name" : "added", 
        "type" : "longSum", 
        "fieldName" : "deleted" 
       } 
      ] 
     } 
    } 
} 

Ich hatte einige Fragen zu meiner Spezifikationsdatei, da ich auf dem Dokument keine Antworten finden konnte. Ich würde es schätzen, wenn jemand sie für mich beantworten kann :)!

1) Ich bemerkte in der Beispiel-Spezifikation, die sie die Zeile "Typ" hinzugefügt: "index_hadoop" ganz oben. Was würde ich für den Typ eingeben, wenn ich eine TSV-Datei von meinem lokalen Computer im Schnellstart-Verzeichnis einnehme? Wo kann ich auch über die verschiedenen Werte lesen, die ich für diesen "Typ" -Schlüssel in die Dokumente schreiben sollte? Ich habe dafür keine Erklärung bekommen.

2) Wieder gibt es in der ioConfig eine Typvariable: "type": "hadoop". Was würde ich für den Typ eingeben, wenn ich eine TSV-Datei von meinem lokalen Computer im Schnellstart-Verzeichnis einnehme?

3) Für die ZeitmarkeSpec ist die Zeit in meiner TSV-Datei in GMT. Kann ich das irgendwie als Format verwenden? Da ich gelesen habe, sollten Sie es in UTC umwandeln und gibt es eine Möglichkeit, während der Datenübermittlung zum Overlord in UTC zu konvertieren? Oder muss ich alle diese GMT Zeitformate in UTC ähnlich ändern: "Zeit": "2015-09-12T00: 46: 58.771Z".

Antwort

0

Druide unterstützt zwei Arten der Einnahme Chargendaten

  • Hadoop Index Aufgabe
  • Index Aufgabe

Die Spezifikation Sie sich beziehen eines Hadoop Index Aufgabe ist daher "Typ" ist " index_hadoop "und auch ioconfig type ist" hadoop ".

Hier ist ein Beispiel für eine spec Index Aufgabe, die von der lokalen Datei lesen können: { "type": "index", "spec": { "dataSchema": { "dataSource": "wikipedia", "parser": { "type": "string", "parseSpec": { "format": "json", "timestampSpec": { "column": "timestamp", "format": "auto" }, "dimensionsSpec": { "dimensions": ["page", "language"] } } }, "metricsSpec": [{ "type": "count", "name": "count" }, { "type": "doubleSum", "name": "added", "fieldName": "added" }], "granularitySpec": { "type": "uniform", "segmentGranularity": "DAY", "queryGranularity": "NONE", "intervals": ["2013-08-31/2013-09-01"] } }, "ioConfig": { "type": "index", "firehose": { "type": "local", "baseDir": "examples/indexing/", "filter": "wikipedia_data.json" } } } }

Verwandte Themen