Google uppdaterar tekniken bakom röstsökning för att göra det snabbare och mer exakt

Google har byggt en ny teknik för att driva sin röstsökning, som företaget säger kommer att göra den ännu snabbare och mer exakt. Den nya tekniken använder Connectionist Temporal Classification (CTC) och sekvensdiskriminerande träningstekniker. 2012 bytte Google från Gaussian Mixture Model (GMM) till Deep Neural Networks (DNN), vilket gjorde det möjligt för företaget att bättre bedöma vilket ljud en användare producerade vid den tiden och levererade en ökad noggrannhet för taligenkänning.

Våra förbättrade akustiska modeller förlitar sig på Recurrent Neural Networks (RNN). RNN: er har återkopplingsslingor i sin topologi, vilket tillåter dem att modellera temporära beroenden: när användaren talar / u / i föregående exempel kommer deras artikuleringsapparat från a / j / ljud och från ett / m / ljud tidigare. Försök att säga det högt - "museum" - det flyter mycket naturligt i ett andetag, och RNN: er kan fånga det. Den typ av RNN som används här är ett Long Short-Term Memory (LSTM) RNN som genom minneceller och en sofistikerad grindmekanism memorerar information bättre än andra RNN. Att anta sådana modeller förbättrade redan kvaliteten på vårt igenkännande avsevärt.

Teknologiförändringen har gjorts av Google och används nu för att driva röstsökningar i Google-appen på både iOS och Android, såväl som diktering på Android-enheter.

Källa: Google Research Blog