Menu

Tecnologias de fala do CPqD evoluem para se tornarem mais amigáveis

Tecnologias de fala do CPqD evoluem para se tornarem mais amigáveis

Instituição criou soluções inovadoras, que vêm sendo utilizadas em aplicações de acessibilidade e inclusão digital

Aplicações baseadas em síntese de fala de alta qualidade, em português falado no Brasil, com flexibilidade para adaptação a ambientes embarcados (em dispositivos com baixa capacidade de armazenamento) e com diferentes tipos de voz. Essas são as principais vantagens da evolução das tecnologias de síntese de fala em que o CPqD vem trabalhando atualmente - por intermédio de uma equipe de profissionais especializados que também atua no desenvolvimento de soluções de biometria de voz e de reconhecimento de fala.

“O objetivo é oferecer ao mercado brasileiro soluções cada vez mais amigáveis, naturais e de qualidade, que facilitem a interação entre as empresas ou instituições e o seu público”, afirma Norberto Alves Ferreira, gerente de Tecnologias de Fala, Imagem e Mobilidade do CPqD. Ele lembra que, em 25 anos de atuação na área de tecnologias de fala - completados em 2015 -, o CPqD já criou diversas soluções inovadoras, que vêm sendo utilizadas em aplicações voltadas à acessibilidade, inclusão digital e segurança da informação. O próprio CPqD Texto Fala, primeiro produto lançado para síntese de fala, recebeu vários prêmios de inovação - chegando a figurar no livro 101 Inovações Brasileiras, publicado em 2008 pelo Monitor Group (atual Monitor Deloitte) - e hoje está instalado em grande número de caixas eletrônicos no país, de diversas instituições financeiras, facilitando o uso desses terminais por pessoas com deficiências visuais ou baixo letramento.

 Segundo o pesquisador Mário Uliani, o CPqD utiliza metodologias de síntese diferentes, em função do tipo de aplicação. A tecnologia de síntese concatenativa (em que se baseia o CPqD Texto Fala), por exemplo, oferece alta qualidade, inteligibilidade e uma voz mais próxima do natural, sendo amplamente aplicada na comunicação em call centers. “A fala é sintetizada a partir da concatenação de trechos de fala natural, gravados por um locutor e armazenados em uma base de fala”, explica. “É uma técnica indicada para aplicações que rodam em desktops ou servidores remotos (na nuvem, por exemplo), uma vez que a base de fala é grande e demanda maior capacidade de armazenamento.”

Já com a técnica HMM (do inglês Hidden Markov Models), a síntese de fala é feita a partir de modelos acústicos obtidos por meio de computação cognitiva. “As características e minúcias são extraídas de uma base de fala gravada com um locutor e utilizadas para a criação dos modelos acústicos”, acrescenta Uliani.

Essa técnica permite reduzir expressivamente o tamanho da base de fala, o que possibilita o uso da solução em aplicações embarcadas, no universo de Internet das Coisas (IoT) - por exemplo, no smartphone, em videogames, aparelhos de TV, GPS, geladeiras, relógios inteligentes e outros dispositivos vestíveis (wearable devices). “Outra vantagem do HMM é a flexibilidade de manipulação e adaptação da fala sintetizada, que permite, entre outras coisas, criar uma nova voz com menor custo, sem necessidade de regravar uma base de fala enorme”, ressalta o pesquisador do CPqD.

 Vários recursos dessas tecnologias já estão disponíveis nas soluções de síntese e de reconhecimento de fala e, também, de biometria de voz oferecidas pelo CPqD. Entre elas, destacam-se o CPqD Alcance, aplicativo que facilita o uso de smartphones touchscreen por pessoas com deficiências visuais e que, recentemente, ultrapassou 15 mil downloads na loja Google Play; o CPqD Smart Authentication, solução que usa biometria de voz (e de face) para a autenticação segura de usuários, e o CPqD Conecta, que combina tecnologias de síntese e de reconhecimento de fala em uma plataforma de comunicação por múltiplos canais digitais, que facilita a interação entre empresas e clientes ou equipes de campo.

 

 

Deixe um comentário

Certifique-se de preencher os campos indicados com (*). Não é permitido código HTML.

voltar ao topo

Finanças

TI

Canais

Executivos Financeiros

EF nas Redes