Ich habe Database mit Tausenden von Reihen von Fehlerprotokollen und ihrer Beschreibung. Dieses Fehlerprotokoll ist für eine Anwendung, die 24/7 läuft. Ich möchte ein Dashboard/eine Benutzeroberfläche erstellen, um die aktuellen häufigen Fehler anzuzeigen, die bei der Unterstützung der Produktion auftreten.Berechnen von Ähnlichkeiten zwischen den Sätzen
Das Problem, das ich habe, ist, dass, obwohl es viele häufige Fehler gibt, die Fehlerbeschreibung unterscheidet sich durch die Transkation ID oder Benutzer-ID oder Dinge, die einzigartig für diese Sigle-Prozess sind.
beispiels Fehler trasaction xyz fehlgeschlagen für Benutzer 233 beispiels 2. Fehler trasaction xyz für Benutzer fehlgeschlagen 567
Ich halte diese beiden erros gleich sein. Ich möchte also ein Programm, das die neuen Fehlerprotokolle durchläuft und sie in Gruppen einteilt. Ich versuche, "Edit distance" zu verwenden, aber es ist sehr langsam. Da ich alraedy alte Fehlerprotokolle habe, versuche ich, an Lösungen zu denken, die diese Information auch verwenden. Irgendwelche Gedanken?
etwas basierend auf soundex könnte hilfreich sein, vielleicht .... –