2016-06-19 9 views
0

Ich bin mir nicht sicher, wo ich das posten soll. Es ist jedoch eine allgemeine Frage. Ich programmiere sprachaktivierte Software, und ich dachte darüber nach.System.Speech and Neural Networks

Wenn ich ein neuronales Sprachnetzwerk programmieren sollte. Welche Optionen wäre am besten zu nehmen?

Ich weiß, dass Aforge maschinelles Lernen mit Fuzzy Logic hat. Wenn ich jedoch von vorne anfangen wollte.

Ich würde Rückpropagation und möglicherweise rekursives Lernen verwenden. Wäre es möglich, dass ich die Standard-Sprachschallwellendateien extrahieren könnte, die MS Speech verwendet, anstatt jedes einzelne Wort in der englischen Sprache in eine Schallwelle aufzunehmen.

Ich habe neuronale Netze mit Vorwärts- und Rückwärtsausbreitung vorher programmiert.

Meine Frage ist in diesem Moment, gibt es eine Möglichkeit, die Schallwellendateien zu ziehen, um die Eingänge zu implementieren, oder muss ich jedes Wort in eine Schallwelle aufnehmen?

Mein langfristiges Ziel ist es innerhalb der nächsten 3 Jahre ist mein Programm Satz Struktur zu unterscheiden, dann das Programm wäre in der Lage, die Substantive, Verben, Adverbien, etc.,. So kann es eigene Sätze erstellen, um dem Benutzer eine Frage zu stellen.

Ich möchte nicht Open Source außer für die Schallwellen verwenden. Ich kann mit der Codierung umgehen. Ich muss nur wissen, ob ich MS Speech Sound Waves ziehen kann oder muss ich sie selbst aufnehmen?

+0

Es spielt keine Rolle, solange Sie alle Wörter haben, die Sie brauchen. Da das Programm nur Wörter spricht (die Wörter nicht erkennt), spielt es keine Rolle. Das Problem ist, wenn Sie eine Mischung aus Wörtern haben, die von zwei Orten kommen, wäre es nicht sinnvoll, einige Wörter mit German Accent und andere mit Italian Accent zu haben. Wenn das Programm auf Wörter hören sollte, die eine andere Geschichte sind, weil Sie das Programm erkennen müssten, dass viele Leute sprechen würden, die viele Proben jedes Wortes benötigen würden. – jdweng

+0

Das Programm auf lange Sicht wird lernen, wie ich dazu sprechen. Also wird das System auf Worte hören, während ich spreche. Zum Beispiel wenn ich sage "Wie viel Zeit habe ich?" Das System würde jedes Wort basierend auf Wiederholung nehmen und sie in eine Datenbank setzen.Also Adverbien zu Adverbien und so weiter. Hier kommt der Soundwav rein. – campnerd

+0

Der Grund, warum ich mich über MS Wav wunderte, ist, dass ich aus dem Südosten der USA komme, ich habe eine sehr starke südländische Aussprache. Ich möchte also nicht, dass das System nur einen Akzent erkennt. Ich möchte, dass es universal ist. An dieser Stelle ist MS wav meine einzige Option. – campnerd

Antwort

0

Natural Language Processing (NLP) ist ein textbasierter Ansatz zum Maschinenverständnis. Es gibt einige sehr gute Papiere, die Sie einen Platz geben kann zu beginnen:

https://openreview.net/pdf?id=B1-q5Pqxl

und

https://arxiv.org/pdf/1611.09830v2.pdf

A MATCH-LSTM Neural Network Architecture den aktuellen Stand der Technik zu sein scheint Denn wie du sagst:

Mein langfristiges Ziel ist es innerhalb der nächsten 3 Jahre mein Programm zu unterscheiden ish Satzstruktur, dann wäre das Programm in der Lage, zusammen die Substantive, Verben, Adverbien usw., etc. So kann es seine eigenen Sätze erstellen, um dem Benutzer eine Frage zu stellen.

Einige Codebeispiel wurde von Wang und Jiang veröffentlicht: https://github.com/shuohangwang/SeqMatchSeq

Ihr Ziel Bord, aber ich glaube, erreichbar. Massive Meilensteine ​​sind bereits erreicht. Viel Glück!

Verwandte Themen