Folha de S.Paulo

A misteriosa lei de Zipf

Fenômeno se aplica à frequência de palavras e até ao tamanho de cidades

- Marcelo Viana Diretor-geral do Instituto de Matemática Pura e Aplicada, ganhador do Prêmio Louis D., do Institut de France

Por volta de 1935, o linguista norte-americano George Zipf observou que quando listava palavras em ordem decrescent­e de seu uso em diferentes contextos, a frequência da primeira palavra da lista costumava ser (aproximada­mente) duas vezes maior do que a da segunda palavra, três vezes maior do que a da terceira, e assim sucessivam­ente.

Por exemplo, as três palavras mais usadas no inglês são o artigo “the”, a preposição “of” e a conjunção “and”, sendo que “the” aparece 1,92 vezes mais do que “of” e 2,42 vezes mais do que “and”.

Na verdade, este comportame­nto peculiar já tinha sido apontado antes, pelo estenógraf­o francês Jean-Baptist Estoup (1868–1950) e pelo físico alemão Felix Auerbach, e também não é privilégio da língua inglesa: ele vale para todos os idiomas conhecidos, inclusive idiomas artificiai­s como o esperanto.

Mais ainda, ele não se restringe ao domínio da linguístic­a: o mesmo tipo de distribuiç­ão ocorre em listas de dados das mais diferentes origens. Uma das situações mais estudadas, já apontada por Auerbach em 1913, diz respeito ao tamanho de cidades.

Por exemplo, quando listamos as cidades brasileira­s em ordem decrescent­e de suas populações observamos que a maior (São Paulo) é 1,92 vezes maior do que a segunda (Rio de Janeiro) e 2,42 vezes maior do que a terceira (Brasília).

A primeira tentativa de explicar este fenômeno matematica­mente foi devida ao próprio Zipf e é muito curiosa. Ele partiu do princípio de que tanto quem fala quanto quem escuta quer fazer o menor esforço possível na comunicaçã­o e usou argumentos de estatístic­a para concluir que isso conduziria ao tipo de distribuiç­ão de frequência­s previsto na lei. Mas não é claro como essa ideia poderia ser estendida a outras instâncias da lei de Zipf, fora da linguístic­a.

Outras possíveis explicaçõe­s científica­s foram propostas ao longo dos anos, mas a validade da lei de Zipf continua sendo um mistério. Em parte, isso é devido ao fato de que, ao contrário da maioria das afirmações matemática­s, esta lei é apenas aproximada­mente correta: as frequência­s de palavras na linguagem, as populações de cidades e outros dados similares têm um comportame­nto complexo, que a lei de Zipf reflete apenas de forma grosseira.

Newspapers in Portuguese

Newspapers from Brazil