Ich entwickle gerade ein Spracherkennungsprojekt und versuche, die wichtigsten Funktionen auszuwählen. Die meisten relevanten Papiere schlagen vor, Nulldurchgangsraten, F0 und MFCC Eigenschaften zu verwenden, deshalb verwende ich diese. Meine Frage ist, ein Trainingssample mit der Dauer von 00:03 hat 268 Funktionen. Wenn man bedenkt, dass ich ein Multi Class Classification Projekt mit 50+ Samples pro Klassentraining unter Einbeziehung aller MFCC Features mache, kann das Projekt vom Fluch der Dimensionalität leiden oder "die Wichtigkeit" der anderen Features reduzieren. Also meine Frage ist, sollte ich alle MFCC-Funktionen einschließen, wenn nicht können Sie eine Alternative vorschlagen?Sind für die Spracherkennung MFCC-Funktionen erforderlich?
Antwort
Sie sollten nicht f0 und Nulldurchgang verwenden, sie sind zu instabil. Sie können einfach Ihre Trainingsdaten erhöhen und mfccs verwenden, sie haben gute Darstellungsfähigkeiten. Aber vergiss nicht, sie zu normalisieren.
Nach den MFCC-Koeffizienten jeden Rahmens erhalten, können Sie als MFCC Funktionen wie die Kombination von darstellen:
1) First 12 MFCC 2) 1 energy feature 3) 12 delta MFCC feature 4) 12 double-delta MFCC feature 5) 1 delta energy feature 6) 1 double delta energy feature
Die concent von MFCC Feature Delta in dieser beschrieben link.
die 39 Dimension Die MFCC-Funktion wird in HMM oder Recurrent Neural Network eingespeist.
Was meinst du mit 1 Energiefunktion? Schlagen Sie vor, die Gesamtenergie zu verwenden, wenn das der Fall ist, ist die Gesamtenergie keine Variable und hat kein Delta. – Ugur
2-Punkt-Energie bezieht sich auf die Energie für das Signal x in einem Fenster von Zeitabtastung t1 bis t2. – Someone
Da die Delta MFCC ebenfalls variieren, entspricht 1 Delta Energie der Energie. – Someone
Der Punkt, den ich machen möchte, ist, dass MFCCs nicht erforderlich sind. Sie können MFCCs verwenden, und Sie können die Energie-, Delta-und Delta-Delta-Funktionen verwenden, wie von @Mahendra Thapa erwähnt, aber es ist nicht "erforderlich". Einige Forscher verwenden 40 CCs, einige lassen die DCT aus der MFCC-Berechnung fallen und machen sie zu MFSCs (spektral nicht cepstral). Einige fügen zusätzliche Funktionen hinzu. Manche benutzen weniger. Empfänglichkeit für den Fluch der Dimensionalität hängt von Ihrem Klassifikator ab, nicht wahr? Einige behaupten sogar kürzlich, Fortschritte in Richtung des "Heiligen Grals" der Spracherkennung gemacht zu haben, mit dem rohen Signal zu trainieren, mit tiefem Lernen zu arbeiten, die besten Eigenschaften zu lernen, anstatt sie in Handarbeit zu machen.
MFCC ist weit verbreitet, und der Effekt ist relativ besser.
könnten Sie bitte Ihre Antwort erweitern –
- 1. Sind Middleware-Apps für die Geschäftslogik erforderlich?
- 2. Sind .OCA-Dateien für die Programmausführung erforderlich?
- 3. Sind Aktivierungsspezifikationen für Message-Driven Beans erforderlich?
- 4. Welche Protokolle sind für Kalenderserver erforderlich
- 5. Sind Dateierweiterungen für Azure-Blobs erforderlich?
- 6. Welche Parameter sind für CMBufferQueueCreate erforderlich?
- 7. Sind Tastaturkürzel für 508 Compliance erforderlich?
- 8. Welche Berechtigungen sind für subprocess.Popen erforderlich?
- 9. Komponententest-APIs, für die OAuth-Token erforderlich sind
- 10. Java - Play2 Sind Akteure für die Implementierung von WebSockets erforderlich?
- 11. Spracherkennung für die Suche von Dateien
- 12. Verwenden von Python für die Spracherkennung
- 13. iOS-Spracherkennung für die Web-App hinzufügen?
- 14. Spracherkennung für Android
- 15. Spracherkennung
- 16. AJAX-Fehler: Die Daten, die für diesen Vorgang erforderlich sind, sind nicht verfügbar
- 17. Warum sind "UIExplorerBlock erforderlich" und "UIExplorerPage erforderlich" für einige Komponenten erforderlich?
- 18. Sind Annotationsklassendateien im Laufzeitklassenpfad erforderlich?
- 19. Warum läuft die Spracherkennung nicht?
- 20. ASP.NET-Dateien für die Entwicklung erforderlich
- 21. Sollte ich die Unterstützungsobjekte erstellen, die für die Verwendung des Datenbankdiagramms erforderlich sind?
- 22. C# Spracherkennung
- 23. Spracherkennung und Text-zu-Sprache für Vala
- 24. Browser Spracherkennung
- 25. Ist @DocumentId für die Hibernate-Suche erforderlich?
- 26. Spracherkennung abfangen
- 27. PHP Spracherkennung
- 28. Welche Tags sind im Manifest für registrierungsfreie COM erforderlich?
- 29. Welche Dateien sind für das mobileweb-Setup in Appcelerator erforderlich?
- 30. C# Spracherkennung
Sind mfcc nur für Sprache gut oder können sie für jede Audio-/Sound-Aufgabe verwendet werden? –
Für einige Aufgaben sind MFCCs in Ordnung, für einige Aufgaben wie Musikerkennung ist es nicht genug Auflösung und andere Funktionen werden verwendet. –