O primeiro (e último) contato com a tecnologia de reconhecimento de voz acontecia apenas quando o usuário acabava de comprar seu celular ou outro dispositivo e utilizava aplicações embarcadas neles para realizar operações por meio de voz. O funcionamento precário, no entanto, freava seu avanço. Mas o poder computacional da nuvem e os novos esforços para desenvolvimento estão tornando o recurso cada vez mais utilizável. E esse cenário só tende a melhorar.
De acordo com o "Gerente Geral de Voz" da Microsoft, Zig Serafin, um dos grandes motores da tecnologia é a computação em nuvem. Tanto, que um dos mais importantes sistemas de nuvem da companhia é dedicado justamente ao reconhecimento de voz. Isso porque são vários serviços reunidos. Talvez o mais essencial, do ponto de vista de faturamento, sejam os serviços telefônicos baseados em respostas de voz usados por grandes companhias como Orbitz e American Airlines. Mas entra também a tecnologia que possibilita aos usuários móveis do Bing fazer buscas por voz e ainda aos donos de automóveis Ford usar a voz para solicitar direções ao GPS do computador de bordo. Todos baseados na mesma nuvem.
A entrada da Microsoft nesse campo ocorreu em 2007, com a aquisição da empresa Tellme, na época em que a tecnologia era pouco usada. Mas, de acordo com a MS, o avanço foi o suficiente para que 20% de todas as buscas oriundas de aparelhos móveis pelo Bing sejam feitas por voz. “Antes disso, tentar usar software de voz do próprio celular era doloroso, mesmo se a tentativa fosse em uma sala silenciosa”, relembra o analista da IDC, Will Stofega.
A nuvem é usada pela Microsoft também para coletar informações sobre como as pessoas usam o serviço, buscando melhorias. Um exemplo: se o usuário fala “restaurante italiano São Paulo” para o Bing, em seu dispositivo com Windows Phone 7, a empresa verifica se o usuário clica em um resultado, presumindo que ele encontrou a resposta. Em vez disso, é possível que ele tente a consulta outra vez, indicando que provavelmente não obteve reconhecimento preciso. As informações sobre a conectividade do telefone também são coletadas, já que problemas nesse aspecto, em muitos casos, podem ser culpados por resultados pobres. “Todos esses dados ajudam a basear a ciência do sistema”, diz Serafin.
É um processo parecido com o do Google, que tem serviço semelhante de busca por reconhecimento de voz e também realiza processamento de ponta a ponta das informações para aprender a forma como os usuários lidam com o serviço. Novamente, a nuvem entra como uma das protagonistas no processo.
Com todo seu sistema, a Microsoft recebe cerca de 11 bilhões de requisições de reconhecimento de fala ao ano. Nos novos dispositivos com Windows Phone 7, basta o usuário segurar o botão de início para abrir o mecanismo de fala, que além de buscas, pode ser utilizado para controlar muitas das aplicações nos dispositivos.
Esse grande volume de informações é peneirado em um centro de operações de rede da Microsoft no Vale do Silício e boa parte das requisições é realizada por um mecanismo que processa informações de maneira automática. Uma parcela dos dados passa por olhar mais próximo de especialistas que podem pensar em realizar mudanças no sistema.
A habilidade em aprender com a massa de dados, na nuvem, é um dos fatores que vai permitir à Microsoft atingir a próxima etapa no reconhecimento de voz, patamar que a tecnologia chama de entendimento conversacional. “Nessa fase, as tecnologias de fala terão a possibilidade de interagir com aplicações múltiplas”, destaca o diretor sênior da Microsoft para Negócios, Ilya Bukshteyn.
A solução almejada é bastante ambiciosa. Bukshteyn cita um exemplo no qual ele poderia dizer :”Achar um lugar para eu e Serafin jantarmos na segunda-feira”. Em um estágio avançado, o sistema poderia automaticamente checar a agenda dos dois envolvidos para descobrir se eles estão na mesma cidade, se têm horários compatíveis e se já comeram sushi alguma vez na vida. O telefone poderia, então, sugerir a Bukshteyn um restaurante de sushi na cidade de ambos.
Leia mais na Computerworld