Uma equipe de investigadores da Universidade de Nova York estudou gravações diárias de um bebê, durante o seu primeiro ano de vida, para entender como é que funciona o processo de aprendizagem da linguagem dos seres humanos.
De acordo com o El País, a experiência não só confirmou a ligação entre a representação visual e linguística – o que vê e a palavra a que corresponde – como contribuiu para o desenvolvimento de um modelo de Inteligência Artificial (IA), que reconhece diferentes objetos de uma maneira muito semelhante à forma como as crianças o fazem.
Para isso, os investigadores analisaram 61 horas de vida de Sam, um menino australiano que durante um ano e meio – dos seis aos 25 meses – usou um capacete com uma câmera que registava as interações que ele tinha com os pais e avós diariamente.
Apesar de ter ficado registado apenas 1% do tempo em que estava acordado, foram captadas centenas de imagens que reproduzem exatamente o que a criança via, acompanhadas de expressões linguísticas dos seus familiares, que explicaram a natureza dos objetos que a rodeavam.
“Por exemplo, durante a refeição, a câmera registou a imagem de uma colher, enquanto a mãe de Sam lhe perguntava algo relacionado com aquele utensílio”, explicou Wai Keen Vong, especialista em psicologia e ciência da computação, que coordenou o estudo, publicado recentemente na revista Science.
Após observar o comportamento da criança, os investigadores confirmaram que ela aprendeu o significado das palavras ao relacioná-las com o estímulo visual, ou seja, ao relacionar a imagem com as palavras que os seus familiares lhe repetiam.
Perante isso, passaram para uma segunda fase da experiência: verificar se a IA seria capaz de aprender a reconhecer objetos da mesma forma que Sam.
O modelo de inteligência artificial, denominado CVCL (Child’s View for Constrastive Learning), foi assim treinado em 64 categorias visuais – utensílios, brinquedos, animais, entre outros – e a transcrição do que Sam ouvia enquanto olhava para estes objetos.
Depois de criada a base de dados, os investigadores começaram a testar para ver se a ferramenta de IA era capaz de identificar as imagens. “Descobrimos que o CVCL pode aprender a fazer conexões entre imagens e textos a partir de fragmentos limitados da experiência de uma única criança”, concluiu o estudo, segundo a revista Science.
Os resultados confirmam assim a “hipótese de que com apenas dois impulsos, que são o que a criança vê e o que ela ouve, é possível alcançar e acelerar esse tipo de aprendizagem”, de acordo com Wai Keen Vong.
Apesar disso, o estudo tem algumas limitações, uma vez que é preciso ter em conta que o CVCL foi treinado com gravações de uma única criança e aprendido por meio de transcrições de fala, em vez de fala direta, que omite nuances importantes como a entoação e o ênfase.
“É necessário lembrar que a aprendizagem do modelo foi passiva, baseada em gravações, sem interação ativa com o ambiente, o que é diferente de como as crianças aprendem em ambientes reais”, reconheceram os autores do estudo.