Ho problemi a determinare da this research paper esattamente come è possibile riprodurre l'algoritmo di Quantizzazione vettoriale standard per determinare la lingua di un input vocale non identificato, in base a un set di dati di addestramento. Ecco alcune informazioni di base:Quantizzazione vettoriale in elaborazione vocale Spiegazione
astratta informazioni riconoscimento lingua (ad esempio giapponese, inglese, tedesco, ecc) utilizzando le funzionalità acustiche è un problema ancora difficile importante per la corrente discorso tecnologia. ... Il database vocale utilizzato in questo documento contiene 20 lingue: 16 frasi pronunciate due volte da 4 maschi e 4 femmine. La durata di ciascuna frase è di circa 8 secondi. Il primo algoritmo si basa sulla tecnica di quantizzazione vettoriale (VQ) standard. Ogni lingua è caratterizzata dallo dal proprio codice VQ, .
Algoritmi di riconoscimento Il primo algoritmo si basa sulla tecnica di Vector Quantization (VQ) standard. Ogni lingua, k
, è caratterizzata da un proprio codice VQ, . Nella fase di riconoscimento, la voce di input viene quantizzata da e viene calcolata la distorsione di quantizzazione accumulata, d_k. Il linguaggio riconosciuto come distorsione minima. Calcolando la distorsione VQ, vengono applicate diverse misure di distorsione dello spettro LPC ... in questo caso, il rapporto inferiore ponderato WLR - distanza: http://tinyurl.com/yc52gcl.
VQ algoritmo standard: un codebook, alt text http://tinyurl.com/y8csx6e, per ogni lingua viene generata utilizzando frasi di formazione. La distanza accumulata nel vettore di ingresso frase, , è definito come: alt text http://tinyurl.com/ybynjc2
la distanza d
può essere qualsiasi distanza che corrisponde alle caratteristiche acustiche e deve essere uguale a quello utilizzato per la generazione del vocabolario. Ogni lingua è caratterizzata dal suo codice VQ, .
La mia domanda è: esattamente come lo faccio? Ho un set di 50 frasi in inglese. In MATLAB, posso facilmente calcolare il WLR per ogni dato segnale. Ma, come faccio a formulare un libro di codici, dal momento che devo usare il WLR per "generazione di codebook" per l'inglese. Sono anche curioso di come confrontare un codice VQ di dimensioni 16 (che è stato trovato per essere la dimensione migliore), per un dato segnale di input. Se qualcuno potesse aiutare a distillare questo foglio per me, lo apprezzerei molto.
Grazie!