2012-02-08 3 views
17

Sto cercando un'API per iOS (in modo ideale) che consenta di fare un riconoscimento vocale. Ho visto alcuni post per questo: iPhone speech recognition API? e free speech recognition engines for iOS? e dopo un po 'di prospettiva ho voluto raccogliere l'SDK che sembra molto interessante:Qual è l'attuale API di riconoscimento vocale migliore per ios in modo che corrisponda a poche parole chiave?

v'è alcuna di quelli che hanno davvero fuori dalla folla e abbastanza recente? come si differenziano davvero l'uno dall'altro?

+0

Se stai cercando solo alcune parole come hai indicato nei commenti qui sotto, dovresti aggiornare la tua domanda con quel requisito –

+0

http://stackoverflow.com/questions/35388720/cant-start-service-speech-recog –

risposta

16

Se si desidera tracciare solo poche parole chiave, è necessario non cercare API o servizio di riconoscimento vocale. Questo compito è chiamato Keyword Spotting e utilizza algoritmi diversi rispetto al riconoscimento vocale. Il riconoscimento vocale cerca di trovare tutte le parole che sono state dette e, a causa di ciò, consuma molte più risorse rispetto alla localizzazione di parole chiave. Lo spotter per parole chiave cerca solo di trovare poche parole chiave o frasi chiave selezionate. È molto semplice e consuma meno risorse.

L'unica soluzione possibile per archiviare questo funcitonality è quello di utilizzare il pacchetto open source come OpenEars alimentati da pocketsphinx

http://www.politepix.com/openears

Openears ha plug Rejecto che implementa qualcosa di simile.

Lo stesso Pocketsphinx ha recentemente implementato l'individuazione di parole chiave efficaci open source, ma non è ancora disponibile in Openers. È disponibile solo tramite l'API pocketphinx, è necessario creare la ricerca di kws e impostare la parola target da cercare. Spero presto che questa funzionalità raggiunga anche OpenEars.

+3

Ma la precisione di 'OpenEars' 'è piuttosto inconsistente e fastidiosa. Puoi suggerire qualcosa di meglio. –

+0

@AbhishekBedi: la precisione di OpenEars è semplicemente fantastica per me, probabilmente non la stai usando correttamente. È necessario fornire ulteriori informazioni al fine di ottenere aiuto su questo. –

+0

Ho seguito il tutorial fornito su [http://www.politepix.com/openears/]. Ma non so come lavorare sul punteggio –

3

Nuance offre agli sviluppatori l'accesso gratuito (ma non per alto volume) - Visualizza http://www.masshightech.com/stories/2011/09/26/daily13-Nuance-tweaks-mobile-dev-program-with-free-access-to-Dragon.html o http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home servizi

Nuance sono tipicamente offerti commercialmente e richiedono fino tasse anteriori e le spese di transazione. Le notizie interessanti di cui sopra sono che ora rendono disponibile gratuitamente agli sviluppatori un basso volume di utilizzo dei loro servizi. Quindi, per lo sviluppo, il testing e la dimostrazione puoi probabilmente utilizzare i servizi Nuance gratuiti. Tuttavia, a differenza dei servizi Google gratuiti in Android, se la tua app ha migliaia di utenti probabilmente dovrai pagare i servizi Nuance.

+0

Grazie Michael - come fa la differenza con le openears o le ispeech che sono anche gratuite? cosa intendi per volume alto: la quantità di dati che devono essere trattati per estrarre le parole chiave? scusa, non ne so molto del riconoscimento vocale. Nel mio caso avrei bisogno di estrarre continuamente alcune parole chiave (max 4/5): non voglio che l'utente interagisca con l'app per entrare in una modalità in cui il riconoscimento vocale è attivo. – tiguero

+1

Nuance è il leader del settore nel riconoscimento vocale commerciale. Sono come Cisco in rete o EMC nello storage. Sono una grande azienda di successo con tecnologia leader del settore. Si ritiene che Nuance fornisca la tecnologia di riconoscimento di Siri di Apple. OpenEars (credo) è una libreria iOS open source per Sphinx e altri riconoscimenti open source. iSpeech proviene da una piccola squadra del New Jersey che sembra essere famosa per l'applicazione DriveSafe.ly. Scusa, non ne so molto di loro. –

2

Abbiamo sviluppato CeedVocal SDK dal 2008, è basato su progetti Julius & FLite open source.

Ecco qualche contesto: abbiamo voluto rendere la nostra applicazione (Vocalia) per il riconoscimento vocale nel 2008 e fondamentalmente scelto Giulio (esitato con Pocket Sfinge, che sembra essere buono come bene) e ottimizzato il suo formato di file in modo che fosse avvia in 1-2 secondi invece di 20 secondi sull'iPhone originale. Poi abbiamo diligentemente addestrato i nostri modelli acustici in 6 lingue. Abbiamo progettato l'API e alla fine abbiamo deciso di offrirlo ad altri sviluppatori come un SDK.

CeedVocal supporta fondamentalmente 2 modi di funzionamento:

  1. corrispondenza di parole (o piccole frasi)
  2. parola macchia

Nel primo modo di funzionamento, si cerca di allineare l'ingresso parola per parola (o frase) nella sua lista di input accettabili. Ciò impone l'input a una parola pre-nota, anche se il discorso è qualcos'altro. La precisione è buona. Nella seconda modalità operativa, cercherà di selezionare una delle sue parole chiave nello stream of speech. Questo è un caso difficile e può essere meno accurato.