2014-04-08 12 views
5

Ist es programmatisch möglich, die Stimmprobe einer Person zu nehmen und einen eindeutigen Ton/eine einzigartige Eigenschaft zu erzeugen, die zum Erstellen einer synthetisierten Sprache verwendet werden könnte?Sprachsynthese - Erstellen benutzerdefinierter Voices

Zum Beispiel zeichnet Person A selbst auf. Aus dieser Stimmprobe wird ein einzigartiger Ton erzeugt, der in eine Synthesesprache umgewandelt wird. Dies ermöglicht es den Menschen, diese synthetische Stimme in Text-to-Speech-Software zu verwenden und jeden gewünschten Text zu schreiben, der in der Stimme von Person A gelesen werden würde.

Ist es in den heutigen Bedingungen möglich? Ich weiß, dass es Unternehmen gibt, die das professionell machen, aber generell, ist es möglich, dass eine Software das tut?

+0

http://en.wikipedia.org/wiki/Siri, http://en.wikipedia.org/wiki/Google_Now, etc ... – ElGavilan

+0

Wenn ich richtig verstehe, was Sie fragen, würde ich "nein" antworten ". Sie können keine "vollständige Stimme" erzeugen, also eine Stimme, die für beliebige "Wörter" aus einem einzigen "Ton" verwendbar ist. Sie benötigen separate Samples für _all_ Sounds, typischerweise mindestens für Diphone oder bessere Triphones. Also ein vollständiger Katalog von Sounds von jedem Sprecher. – arkascha

+0

OK, vielen Dank, Arkascha. Ich dachte nur, dass, genau wie jeder Mensch einen einzigartigen Fingerabdruck hat, vielleicht verschiedene Stimmen durch irgendeine Eigenschaft unterschieden werden können. Und ElGavilan, Siri funktioniert nicht so. Es verwendet Erzählungen, die von einer echten Frau aufgenommen wurden. – Travier

Antwort

4

Mit Speaker-Adaptionsmethoden können Sie mit vergleichsweise wenigen Trainingsbeispielen einige Ergebnisse erzielen, aber dennoch sollten Sie einige hundert Sätze der Person haben - vorzugsweise mit einer phonetischen Transkription.

Wir hatten dies einmal als kleine Übung für Studenten, um ihre eigenen Stimmen aufzunehmen und ein Stimmmodell mit HTS zu trainieren (http://hts.sp.nitech.ac.jp/). Der "einfachste" Ansatz mit HTS ist das Herunterladen der "Speaker dependent training demo" von dieser Seite und das Ersetzen der Trainings-Sprach-Samples durch eigene Aufnahmen (der gleichen Sätze!). Wir haben dies für eine andere Sprache mit unserem eigenen Paket getan.

Ich denke, MaryTTS (http://mary.dfki.de/) hat einige bequemere Werkzeuge, um mit diesem Prozess zu helfen, aber ich habe nie damit gearbeitet.

Aber immer noch - für qualitativ hochwertige Stimmen, sollten Sie Tausende von aufgezeichneten Sätzen haben.

Verwandte Themen