2010-11-10 11 views
11

Ich muss einige kurze MP3s automatisch als Teil eines Proof of Concept, an dem ich arbeite, transkribieren. Ich suche derzeit nach Cloud-Lösungen oder Web-API-Diensten, um die MP3 als einfache HTTP-Anfrage zu senden und eine Transkription zurück zu erhalten.Speech Recognition API

Die einzige freie/Open-Source-Lösung, die ich here gefunden habe, aber die Demos scheinen nicht zu funktionieren (zumindest nicht auf den Dateien, die ich transkribieren muss). Ich habe einige Enterprise-Lösungen für Call-Center gefunden, aber bisher kann ich nichts einfach in ein Projekt integrieren.

Gibt es webbasierte Spracherkennungsdienste? Eine, die in der Lage ist, kleines Rauschen herauszufiltern, wäre ein Pluspunkt.

+0

Siehe auch diese Frage: http://stackoverflow.com/questions/3113864/server-side-voice-recognition –

Antwort

1

This kann eine gute Übereinstimmung sein. Auch ihr Techcrunch-Profil (See this) listet Konkurrenten auf: SimulScribe, SpinVox, Vlingo, Nuance, Microsoft, Google Einige dieser Links können hilfreich sein.

Vlingo, Bing und Google haben Erkenner in der Cloud, aber ich glaube nicht, dass sie sie öffentlich programmierbar machen. Ich glaube, dass sie nur von ihren autorisierten Kunden zugänglich sind.

Haben Sie für einen Proof of Concept (und ein geringes Volumen) nur die Desktop-Sprach-Engines berücksichtigt, die in Windows 7 enthalten sind? What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition? kann hilfreich sein. Die MS-Desktop-Recognizer werden mit einer Diktatgrammatik geliefert und es klingt so, als ob Sie das brauchen.

+0

Yapme, und ein paar andere Dienste, die ich fand, nachdem ich gepostet habe, richtet sich an große Kunden. Ich habe sie per E-Mail geschickt (was die einzige Möglichkeit ist, API-Informationen, Preise oder Zugriffe zu erhalten), aber ich habe nichts mehr gehört. Die aufgeführten Wettbewerber bieten Call-Center-Lösungen, wie ich in meinem Beitrag erwähnt habe. Ich habe mich nicht mit den Microsoft Speech Engines beschäftigt, weil mein Projekt davon abhängt, dass ich das Script schreiben kann, und ich arbeite in PHP/Python auf einem Linux-Server. Ich könnte einige grundlegende Tests verwenden, aber ich würde eine andere Lösung benötigen. – MrGlass

+0

-1 Zu dieser Zeit scheint yapme.com eingestellt worden zu sein. –

+2

Eigentlich beenden sie ihren Voicemail-Transkriptionsdienst, aber es ist nicht klar, was mit ihren Cloud-Erkennungs-APIs passiert. Sie scheinen von Amazon gekauft worden zu sein und so spekulieren die Leute, dass Amazon ihre Amazon Services ihren Amazons Cloud Services hinzufügen könnte - http://www.theatlantic.com/technology/archive/2011/11/i-see-your-siri -und-raise-you-a-yap-amazon-leise-snaps-up-sprache-erkennungs-startup/248165/(Sie erkennen, dass mein Beitrag Sie sagen "-1" über ist über ein Jahr alt ...) –

1

Auch Sie können versuchen, Spracherkennung von Windows 7, um Untertitel zu produzieren. Here ist das Werkzeug dafür.

+0

Wie hängt diese Verbindung mit der Spracherkennung zusammen? – matteo

+0

Dieses Open-Source-Tool verwendet die Spracherkennungs-Engine von Windows zum Analysieren einer WAV-Datei und extrahiert daraus eine Untertiteldatei. – VahidN

+0

Es ist lustig, dass die Feature-Liste nicht einmal eine so mächtige Funktion erwähnt. – matteo

5

Hier ist an unofficial method Zugriff auf Google ASR-Fähigkeit. Ich habe gerade auf Yesterday getestet und es funktioniert immer noch - Sie können ASR-Ausgabe im JSON-Stil mit Worten und dem zugehörigen Konfidenzwert von einem FLC-Audio erhalten, das in 16 kHz abgetastet wurde.

+0

Das ist ein wirklich cooler Fund. Gibt es Informationen zu einem Ratenlimit? – MrGlass

+0

Bitte wandeln Sie Ihre Audiodateien in 16K Hz FLAC um. Da dies keine offizielle Lösung von Google ist, gibt es viele Unbekannte :) – Leo5188

+3

Geprüft, diese Methode funktioniert jetzt nicht mehr. Google hat jedoch eine V2-Version veröffentlicht, die einen API-Schlüssel benötigt und eine Quote hat, die sehr niedrig ist.Eine Implementierung finden Sie hier: https://github.com/gillesdemey/google-spech-v2 –

Verwandte Themen