Ich versuche, einen neuen Datensatz zu erstellen, indem Intervalle aus einem anderen Datensatz beispielsweise betrachten dataset1 als Eingabe und dataset2 als Ausgabe unter:erstellen Spark-Datensatz mit Teilen anderer Dataset
dataset1 = [1, 2, 3, 4, 5, 6]
dataset2 = [1, 2, 2, 3, 3, 4, 4, 5, 5, 6]
ich es geschafft, zu tun das Verwenden von Arrays, aber für die mlib wird ein Datensatz benötigt.
Mein Code mit Array:
def generateSeries(values: Array[Double], n: Int): Seq[Array[Float]] = {
var res: Array[Array[Float]] = new Array[Array[Float]](m)
for(i <- 0 to m-n){
res :+ values(i to i + n)
}
return res
}
FlatMap scheint, wie die Art und Weise zu gehen, aber wie eine Funktion für den nächsten Wert in dem Datensatz suchen?
können Sie die erwartete Ausgabe für das angegebene Dataset posten? – BDR
@BDR danke für die Antwort, gegeben Dataset1 aus der Frage Beschreibung Ich möchte das Dataset2 –
Sie wollen sagen, dass Ihre Dataset1 ist Ihre Eingabe und erwartete Ausgabe ist Dataset2? Hat es es richtig gemacht? – BDR