0

Ich hoffe, Fragen wie diese gehören hier. Also hier ist das Problem, mit dem ich mich gerade beschäftige: Ich habe einige Daten aus einem Herstellungsprozess gesammelt (Sensordaten, Prozessparameter etc.) und für jedes Teil, das die Produktionslinie verlässt, weiß ich ob es Schrott ist oder nicht. Also für jedes Teil habe ich seine Prozessdaten und die Qualität (0: gut 1: schlecht)Herstellung mehrdeutiger Datensatz

Mein Ziel ist es, den Herstellungsprozess zu optimieren, d. H. Die optimalen Prozessparameter zu finden, um die geringste Menge an Ausschuss zu produzieren.

Was ich bisher gemacht habe: Ich habe verschiedene Klassifikationsalgorithmen (Random Forest, SVM, neuronales Netzwerk) ausprobiert, aber keine sind in der Lage, eine gute Genauigkeit zu erreichen. Ich denke der Grund ist, dass die Daten sehr zweideutig sind, d. H. Wenn ich Teile mit den gleichen Prozessparametern habe, könnten einige von ihnen Ausschuss sein, während einige gut sein könnten. Aber es gibt definitiv eine Verbindung zwischen Qualitäts- und Prozessparametern. Was ich jetzt möchte, ist die Vorhersage der "Wahrscheinlichkeit" für einen Teil, gut oder schlecht zu sein. Imo möchte ich die Wahrscheinlichkeitsdichte schätzen? Kann ich das mit K-nächsten Nachbarn machen?

Antwort

0

Ein Schritt, den Sie versuchen könnten, ist es, für jeden Parameter zu schätzen, wobei x der Parameterwert und die gute/schlechte Indikatorvariable ist.

Es besteht die Möglichkeit, dass sich nicht an eine bestimmte Verteilung hält, und es wäre schwer für mich, einen Vorschlag zu machen, wenn ich nicht weiß, welche Art von Werten sie dafür verwenden.

A "-Modell frei" Ansatz, da eine Menge von n Beobachtungen wäre "diskretisieren" der Parameter x, so dass

Dann können Sie die pmf schätzen über

und ähnlich für den "schlechten" Fall. Nachdem Sie für jeden Parameter haben, können Sie die relative Entropie/KL-Divergenz zwischen den "guten" und "schlechten" Fällen dieses Parameters berechnen. Diejenigen, die größere Divergenz zwischen den beiden Klassen haben, sind die Parameter, die am wichtigsten sind, und ihre PMFs werden Ihnen hoffentlich zeigen, welche Werte für schlechte Leistung sprechen.

Dies setzt natürlich die Parameter voraus, die sie tatsächlich nicht sein können, aber ein ähnlicher Prozess kann durchgeführt werden, indem Co-Parameter berücksichtigt werden, die nicht unabhängig sind und dementsprechend diskretisieren.