Existem mais de 70 partes do corpo – cada uma com um tamanho e forma únicos – que contribuem para a forma como uma pessoa fala. A biometria da voz baseia-se no fato de que as características da voz humana se correlacionam fortemente com as qualidades fisiológicas de como uma pessoa cria a fala. Ao contrário de outros métodos de autenticação, a biometria de voz não depende de um segredo como a pessoa se lembrar de uma senha. Não é o que a pessoa diz que será verificado, é quem está falando.
Mais de 70 partes do corpo contribuem para a forma como uma pessoa produz a fala e cada uma dessas partes é única para ela. Os sistemas biométricos de voz funcionam através da extração das características que distinguem o discurso de uma pessoa das outras pessoas. O resultado é uma “impressão de voz” análoga a uma impressão digital. Uma impressão de voz é também chamada de “modelo de voz”.
Os sistemas de reconhecimento de voz cadastram uma pessoa conhecida através da criação de um modelo inicial, através da fusão de vários modelos criados a partir de amostras da fala dessa pessoa para maior precisão. O modelo inicial chama-se modelo de cadastro ou impressão de voz de cadastro.
Para verificar a identidade de uma pessoa cadastrada, o sistema de reconhecimento biométrico de voz captura uma nova amostra de voz, cria um modelo a partir da amostra e compara-o com o modelo de cadastro. Uma forte correspondência entre modelos indica que a mesma pessoa falou ambas as amostras, verificando assim a identidade da pessoa. Esta forma de utilizar o reconhecimento de voz chama-se Verificação do Orador. É uma correspondência de um para um entre o modelo de cadastro e alguém que afirma ser a pessoa cadastrada.
Outra forma de utilizar o reconhecimento de voz é comparar uma amostra de voz de uma identidade desconhecida com múltiplos modelos de cadastro. O objetivo é encontrar a pessoa dentro do conjunto de modelos de cadastro. Esta forma de utilizar a biometria da voz chama-se Identificação do Orador. Há limites significativos para a precisão da identificação do orador, pelo que as empresas devem consultar um perito para compreender se um caso de uso 1 para N com voz será prático.
A utilização da biometria de voz para autenticação está crescendo em popularidade devido a melhorias na precisão, alimentadas em grande parte por avanços na IA, e expectativas crescente dos clientes para um acesso fácil e rápido à informação. As violações frequentes de dados associados à senha são outra razão para uma adoção mais ampla à medida que as empresas procuram formas de melhor proteger os dados dos clientes.
Quando se trata de precisão, não se trata apenas de manter a pessoa errada de fora. As empresas também têm de minimizar “falsas rejeições” que causam dores de cabeça aos clientes e agentes existentes. “Equal Error Rate” (EER) é o ponto em que o número de falsas aceitações e falsas rejeições é igual. É claro que o objetivo é tornar estes dois tipos de erros extremamente pequenos, idealmente não permitindo que nenhum impostor passe com apenas um número insignificante de pessoas válidas a serem rejeitadas.