in ,

Pesquisadores do MIT criam algoritmo que gera retrato de pessoa usando áudios

Pesquisadores do Massachusetts Institute of Technology (MIT, na sigla em inglês) criaram um algoritmo que consegue gerar o rosto de uma pessoa baseado apenas na voz dela. Os resultados do estudo Speech2Face: Learning the Face Behind a Voice foram publicados no mês passado.

O algoritmo não cria uma representação exata da pessoa, mas conseguiu reproduzir uma imagem do rosto com uma expressão neutra e diferenciar sexo, raça e idade de forma precisa. Para conduzir os estudos, os pesquisadores treinaram uma rede neural de milhões de clipes educacionais retirados do YouTube com mais de 100 mil pessoas distintas.

Os pesquisadores ainda ressaltam que o método não gera um retrato preciso da pessoa com base em sua voz, mas os resultados do estudo mostram que o algoritmo é capaz de criar uma imagem estranhamente similar com a aparência real da pessoa.

Pesquisadores do MIT criam algoritmo capaz de reproduzir retratos de alguém com base em áudios (Foto: Reprodução / Arxiv)

Apesar de se apresentar de forma rudimentar, o estudo conduzido pelos pesquisadores do MIT sinaliza uma nova realidade onde algoritmos podem adivinhar e gerar a imagem de uma pessoa baseada apenas em sua voz. O novo sistema também pode indicar um futuro onde o anonimato se torna cada vez mais difícil de se alcançar.

No estudo, também foram destacadas questões éticas, como o fato do sistema não revelar a “verdadeira identidade de uma pessoa”, e sim criar “faces de aparência comum”. Os pesquisadores ainda levantaram questões sobre o tipo de dados usados para o modelo – depois da publicação do estudo, um dos indivíduos que aparece no documento disse não se lembrar de ter assinado um documento autorizando o vídeo do YouTube a ser usado para o treinamento de um algoritmo.

“Como minha imagem e minha voz foram apontados como exemplo no artigo Speech2Face, em vez de ser usada apenas como um ponto de dados em um estudo estatístico, teria sido educado pelo menos entrar em contato para me informar ou pedir minha permissão”, disse Nick Sullivan, chefe de criptografia da Cloudflare, ao site Slate. No entanto, os vídeos estão disponíveis publicamente e, legalmente, este tipo de consentimento não é necessário.

Além disso, os pesquisadores do MIT afirmam que os dados obtidos para o estudo não são uma representação precisa da população mundial, uma vez que foi utilizado apenas um subconjunto específico de vídeos no YouTube. Isso significa dizer que o estudo pode ser tendencioso, um problema comum ao usar conjuntos de dados para o aprendizado de máquina.