Ich versuche derzeit, grundlegende Spracherkennung in AS3 zu implementieren. Ich brauche das vollständig clientseitig, so kann ich nicht auf leistungsfähige serverseitige Spracherkennungswerkzeuge zugreifen. Ich hatte die Idee, Silben in einem Wort zu erkennen und daraus das gesprochene Wort zu bestimmen. Ich bin mir bewusst, dass dies die Möglichkeiten der Anerkennung einschränken wird, aber ich muss nur ein paar Schlüsselworte erkennen und sicherstellen, dass sie alle eine unterschiedliche Anzahl von Silben haben.1D Mehrfachspitzenerkennung?
Ich bin derzeit in der Lage, eine 1D-Array von Sprachniveau für ein gesprochenes Wort zu generieren, und ich kann klar sehen, wenn es irgendwie zeichnen, dass es in den meisten Fällen deutliche Spitzen für die Silben gibt. Allerdings bin ich völlig fest, wie ich diese Spitzen herausfinden würde. Ich brauche die Zählung nur wirklich, aber ich nehme an, das kommt daher, sie zu finden. Zuerst dachte ich daran, ein paar Maximalwerte zu nehmen und sie mit dem Durchschnitt der Werte zu vergleichen, aber ich hatte den Gipfel vergessen, der größer ist als die anderen, und so befanden sich alle meine "Spitzen" auf einem tatsächlichen Peak.
Ich stolperte auf some Matlab code, die fast zu kurz, um wahr zu sein, aber ich kann nicht sehr, da ich nicht in der Lage bin, es in jede Sprache zu konvertieren, die ich kenne. Ich habe AS3 und C# ausprobiert. Ich frage mich also, ob ihr mich auf dem richtigen Weg starten könntest oder einen Pseudo-Code für die Peak-Erkennung hattest?
Diese Funktion nichts zurückliefert, aber wenn es, täte, würde es nicht nur zurück, den Index der höchster Gipfel - nicht alle Gipfel? – Matt