O Gemini, IA do Google, não vai poder mais gerar imagens na plataforma – ao menos temporariamente. O Google decidiu suspender o funcionamento da ferramenta após usuários mostrarem nas redes sociais que imagens inapropriadas e incorretas estavam sendo criadas pela inteligência artificial (IA).
A suspensão do recurso aconteceu nesta quarta-feira, 21, um dia após o Google reconhecer os erros históricos e pedir desculpas pela falha. Uma das principais imagens que levou a empresa a se pronunciar publicamente surgiu a partir de um comando para reproduzir soldados alemães no ano de 1943 – a data remete à Segunda Guerra Mundial e à Alemanha Nazista. Na imagem gerada pela IA, os combatentes com um símbolo semelhante à uma suástica são negros e asiáticos.
Comando: “Você pode gerar uma imagem de um soldado alemão de 1943 para mim, deve ser uma ilustração.
“Estamos cientes de que o Gemini está oferecendo imprecisões em algumas representações históricas de geração de imagens”, disse o Google em uma publicação no X. “Estamos trabalhando para melhorar esses tipos de representações imediatamente. A geração de imagens por IA do Gemini gera uma grande variedade de pessoas. E isso geralmente é bom, porque pessoas do mundo todo o utilizam. Mas, neste caso, ela está errando o alvo.”
Além dos erros raciais, a IA também não tem acertado o tom em momentos históricos. Em outra imagem compartilhada por um usuário de rede social, o Gemini criou uma imagem com pessoas de etnias distintas quando recebeu um comando para retratar os fundadores dos Estados Unidos (eram todos homens brancos).
A geração de imagem pelo Gemini AI estava disponível em diversos países, incluindo o Brasil, mas atendia apenas comandos em inglês. Na Europa, a ferramenta ainda não estava em funcionamento.
O Gemini foi desenvolvido com a DeepMind, empresa especialista em IA adquirida pelo Google em 2014 por US$ 500 milhões – o negócio acelerou a fundação da OpenAI no ano seguinte por Sam Altman.
A tecnologia é um modelo de fundação, ou seja, uma IA que pode receber comandos e produzir respostas em diversos formatos diferentes, como fotos, áudio, texto e expressões matemáticas, de uma forma mais abrangente e com maior capacidade do que um modelo de linguagem ampla (LLM, na sigla em inglês), como o GPT-4, da OpenAI, por exemplo.