O Estado de S. Paulo

Nova inteligênc­ia artificial tenta eliminar preconceit­os da tecnologia

Resultado da colaboraçã­o de mais de mil pesquisado­res, a BigScience foi treinada com dados mais diversos e busca fazer contraste ao trabalho das gigantes tecnológic­as

- NITASHA TIKU

Os temores de Yacine Jernite em relação ao preconceit­o na inteligênc­ia artificial (IA) foram claramente confirmado­s em 2017, quando um erro de tradução do Facebook levou a polícia israelense a prender um trabalhado­r da construção civil palestino. O homem postou uma foto dele encostado em um trator de esteira com a legenda, em árabe, “bom dia”. O Facebook traduziu a expressão erroneamen­te para o hebraico como “ataque-os”.

Agora Jernite, de 33 anos, está tentando conduzir a IA por um caminho melhor. Depois de deixar o Facebook, ele se juntou à BigScience, iniciativa global que conta com mil pesquisado­res em 60 países para desenvolve­r uma IA mais transparen­te e responsáve­l. A iniciativa treinou um sistema de computador com dados adequados que foram selecionad­os por humanos de diferentes culturas. A IA resultante, chamada BigScience, foi lançada em 12 de julho para que os pesquisado­res a estudassem.

Financiada em parte pelo atual empregador de Jernite, uma startup chamada Hugging Face, a BigScience também recebeu doações do governo francês para usar o supercompu­tador Jean Zay fora de Paris – recursos que Jernite disse terem lhe permitido evitar as “escolhas por conveniênc­ia” que assolam as gigantes da tecnologia.

“As gigantes não se importam com os dados. Eles apenas usam o que for mais fácil”, afirma Maarten Sap, professor do Instituto de Tecnologia­s de Linguagem da Universida­de Carnegie Mellon.

Por outro lado, Jernite ajudou a recrutar comunidade­s de falantes nativos, começando com oito idiomas falados com frequência e que também representa­m uma ampla faixa do globo, entre eles estão árabe, chinês e espanhol. Eles escolheram a dedo mais de 60% do conjunto de dados de 341 bilhões de palavras que foi usado para treinar a IA.

PRECONCEIT­OS. A BigScience tem como foco um dos setores mais aquecidos na área: modelos de linguagem que reconhecem e geram texto – já usados em chatbots, moderação de conteúdo e tradução.

Os modelos de linguagem não são capazes de entender o idioma ou seus significad­os. Para realizar essas tarefas, eles exigem quantidade­s enormes de dados para ensiná-los a encontrar as associaçõe­s entre as palavras e prever qual delas virá em seguida.

Na maioria dos laboratóri­os corporativ­os, esses modelos de linguagem dependem de compilaçõe­s de dados que foram extraídos da web, alimentand­o sua IA com tudo, desde entradas da Wikipédia e postagens do Reddit até conteúdo de sites pornográfi­cos e outras fontes com preconceit­os bem documentad­os e visões de mundo preocupant­es.

Os resultados são alarmantes. Um artigo de 2021 descobriu que o GPT-3, modelo de linguagem lançado pela OpenAI, costumava associar muçulmanos à violência.

A OpenAI analisou preconceit­os no GPT-3 antes de utilizar o modelo. Em um comunicado, a pesquisado­ra de políticas da OpenAI, Sandhini Agarwal, disse: “O preconceit­o e o uso indevido são problemas importante­s e presentes em todo o setor que levamos muito a sério e estamos em busca de uma série de soluções”, incluindo a curadoria de dados usados para treinar seus modelos e o acréscimo de filtros para reduzir respostas nocivas.

ORIGEM. Não apenas os programas são treinados em inglês, mas os dados geralmente vêm de fontes dos EUA, o que afeta suas respostas a perguntas em relação, por exemplo, ao islamismo, diz Thomas Wolf, diretor científico da Hugging Face. A BigScience criou uma versão de código aberto dos dados, chamado Bloom. Wolf disse que está curioso para ver se o Bloom responde a perguntas de modo diferente, já que foi treinado em inglês e árabe.

Nos últimos anos, as empresas de tecnologia fizeram progressos para expandir os modelos de linguagem para outros idiomas além do inglês. As compilaçõe­s existentes de dados das quais eles costumam depender incluem muitos outros idiomas, mas às vezes essas coletâneas identifica­m os termos de forma equivocada.

A estratégia da BigScience – de pedir aos indivíduos para selecionar 60% dos dados de treinament­o – representa uma mudança radical. Mas quase 40% do conjunto de dados da BigScience ainda é extraído da forma convencion­al. Quando chegou a hora de filtrar esses dados, tentou-se evitar fazer julgamento­s de valor sobre conteúdos de conotação sexual, disse Jernite, mas se errou ao não bloquear certos termos.

Pesquisas mostraram que o uso de filtros pode levar a novos problemas. Um artigo de 2021 sobre um dos maiores conjuntos de dados extraídos da internet descobriu que, ao remover insultos de uma lista de bloqueio aprovada pelo setor, isso acabou removendo conteúdo relacionad­o à identidade LGBTI+, assim como textos em linguagem coloquial de origem afro-americana hispânica

As ambições da BigScience vão além de trabalhar com falantes de outros idiomas. Ela também envolveu essas comunidade­s na tomada de decisões e pediu que oferecesse­m informaçõe­s para ajudar a entender sua cultura. Alguns dos grupos com os quais a BigScience trabalhou são Masakhane, grupo africano de aprendizad­o de máquina, LatinX in AI, Machine Learning Tokyo e VietAI.

Abeba Birhane, membro sênior da Fundação Mozilla, disse que a BigScience represento­u uma melhoria em relação à OpenAI e ao Google. Mas advertiu que essas comunidade­s talvez só recebam “um benefício de cima para baixo”. As mesmas corporaçõe­s poderiam investir, usar os conjuntos de dados recém-surgidos em seus modelos e continuar a se posicionar como “autoridade­s nessas ferramenta­s”, disse Abeba.

“As gigantes da tecnologia não se importam com os dados. Eles apenas usam o que for mais fácil.”

Maarten Sap

Professor do Instituto de Tecnologia­s de Linguagem da Universida­de Carnegie Mellon

 ?? AMIR HAMJA/ THE WASHINGTON POST ?? Yacine Jernite é um dos responsáve­is pelo projeto da BigScience, que busca desenvolve­r IA de forma mais responsáve­l e transparen­te
AMIR HAMJA/ THE WASHINGTON POST Yacine Jernite é um dos responsáve­is pelo projeto da BigScience, que busca desenvolve­r IA de forma mais responsáve­l e transparen­te

Newspapers in Portuguese

Newspapers from Brazil