funken ml pipeline handle ungesehene etiketten

Um neue und ungesehene Etiketten in einer Funke-ml-Pipeline zu behandeln, möchte ich am häufigsten Imputation verwenden. wenn die Rohrleitung besteht aus 3 Schrittenfunken ml pipeline handle ungesehene etiketten

Vorverarbeiten
lernen häufigste Element
stringIndexer für jede Spalte kategorischen
Vektor assembler
Schätzer z.B.

Unter der Annahme (1) und (2,3) und (4,5) bildet getrennte Pipelines

I kann 1 für Zug-und Testdaten passen und zu transformieren. Dies bedeutet, alle nan-Werte wurden behandelt, dh
2,3 passt schön sowie 4,5
dann kann ich

folgende

val fittedLabels = pipeline23.stages collect { case a: StringIndexerModel => a } 
val result = categoricalColumns.zipWithIndex.foldLeft(validationData) { 
    (currentDF, colName) => 
     currentDF 
     .withColumn(colName._1, when(currentDF(colName._1) isin (fittedLabels(colName._2).labels: _*), currentDF(colName._1)) 
      .otherwise(lit(null))) 
    }.drop("replace")

verwenden zu ersetzen neue/ungesehen Etiketten mit null

diese absichtlich eingeführt nulls durch die häufigste kalkulatorische Präteritum

Allerdings ist dieses Setup sehr hässlich. Tools wie CrossValidator funktionieren nicht mehr (da ich keine einzige Pipeline liefern kann)

Wie kann ich auf die angepassten Labels in der Pipeline zugreifen, um einen Transformer zu erstellen, der die neuen Werte auf null setzt?

Sehen Sie einen besseren Ansatz, um den Umgang mit neuen Werten zu erreichen? Ich nehme an, dass die häufigste Imputation in Ordnung ist, d. H. Für einen Datensatz mit etwa 90 Spalten enthalten nur sehr wenige Spalten eine unsichtbare Bezeichnung.

Quelle

2017-01-12 Georg Heiler

Ich erkannte schließlich, dass diese Funktionalität erforderlich ist, um in der Pipeline zu bleiben, um ordnungsgemäß zu funktionieren, d. H. Erfordert eine zusätzliche neue PipelineStage-Komponente.

Quelle

2017-01-23 17:19:24

funken ml pipeline handle ungesehene etiketten

Antwort

Verwandte Themen