quinta-feira, 17 de novembro de 2011

Riscos III - O falso positivo.

Esta é mais uma das questões surpreendentes da área de probabilidade:

Você acaba de fazer um exame para detectar uma doença rada, que afeta 1% da população. O resultado, infelizmente, é positivo. Qual a chance de você ter mesmo a doença, sabendo-se que a taxa de falso positivo para este exame é de 1%?

A resposta correta, 50%, não é a mais popular. Ora, se o falso positivo é 1%, não é óbvio que há 99% de chance de termos um "verdadeiro positivo"? É evidente que, mais uma vez, uma pequena confusão semântica estabeleceu-se sobre o significado da expressão "falso positivo".

Não é difícil chegar à resposta correta se raciocinamos da seguinte forma: ou você pertence ao grupo de 1% que tem a doença, ou ao grupo de 1% que, apesar de não ter a doença, é acusado pelo exame. Sem outra informação disponível, a possibilidade de pertencer a um ou outro grupo de 1% é a mesma, e concluímos que a chance de você ser saudável ainda são esperançosos 50%.

Como sempre acontece, esclarecida esta questão, surgem outras. A primeira conclusão (errada) que se pode tirar é que o exame não diz muito. Afinal, depois de todo o trabalho de fazer o exame e esperar o resultado, temos apenas 50% de certeza. Mas vamos com calma: em primeiro lugar, os números do nosso problema são um pouco artificiais. Um exame para uma doença rara, na verdade, costuma ter taxas de falso positivo menores ainda (observe como é difícil desenvolver um bom exame para uma doença rara). Em segundo lugar, e mais importante, o exame nos deu uma enorme quantidade de informação. Saímos de uma pequena dúvida sobre termos a doença (1%) para uma situação muito mais clara (50%), embora talvez não tão clara quanto desejássemos.

Outra pergunta que surge é: não haveria uma definição mais prática de falso positivo, que me desse de imediato a resposta ao problema em questão (afinal, não é isso que eu busco quando falo em falso positivo)? Em outras palavras, não seria melhor dizer que o falso positivo do exame do problema considerado é 50%, o que me permitiria chegar mais facilmente à resposta correta?

Infelizmente, esta definição "prática" é, na verdade, impraticável, com o perdão do trocadilho. Observem que a resposta correta ao problema depende não só do exame em si, mas da raridade da doença. Se a doença afetasse 10% da população, a chance de estar doente, com os mesmos 1% de falso positivo, subiria para quase 91%. Assim, não se pode atribuir ao exame um número único, que nos dê a resposta correta para a questão. Não há saída fácil. É preciso ter cuidado com as definições, e fazer todas as contas.

segunda-feira, 14 de novembro de 2011

Chamando a Tecnologia de "Vossa Excelência"

A expressão é comum no futebol: o craque tem intimidade com a bola, trata a bola por "você". O perna-de-pau já a chama de "Vossa Excelência".

Eu acredito que o português falado no Brasil, e as regras de redação científica que nós mesmo nos impomos, nos faz chamar a Ciência, e em particular a Tecnologia, de "Vossa Excelência".Termos são mantidos no idioma inglês, por vezes sem necessidade alguma, ou a tradução vai buscar palavras desnecessariamente eruditas. Em nome da objetividade, o autor se preocupa mais em esconder os sujeitos das orações do que em comunicar ideias. Eu conheço alguns exemplos da área de eletrônica e informática, mas tenho certeza que o caso é mais geral.

Primeiro, vamos voltar ao futebol: goleiro, escanteio, zagueiro, centro-avante. Traduções que foram, em algum momento, inventadas, e que devem ter soado estranhíssimas para quem se acostumara com as corruptelas nacionalizadas, que ainda podem ser encontradas em textos antigos sobre o esporte no Brasil: golquipa, corner, beque, centerfor.

Seria tão difícil buscar uma tradução para, digamos software (que os franceses chamam logiciel)? A questão não é de nacionalismo. Não vejo problema em o português absorver dezenas de palavras do inglês em informática. O problema, de novo, é de recorrer a um idioma estrangeiro para tornar uma palavra mais respeitável e séria, mais "vossa excelência".

Muitos não escondem um sorriso discreto e superior ao saber que os portugueses chamam de rato o dispositivo indicador do computador ou, para mais um exemplo esportivo, de grelha a disposição dos carros antes da largada. Mas ora, mouse e grid não querem dizer nada mais profundo que rato e grelha. Se achamos a alegoria crua, por que não buscamos algo menos cru na nossa língua?

Na área de eletrônica digital, um circuito capaz de se manter estável em duas condições diferentes é a base de muitas formas de armazenamento de dados (armazena um 0 em um de seus estados estáveis, ou um 1 no outro estado). Tal dispositivo recebe nomes simples em inglês: latch (ferrolho) ou flip-flop (algo como vira-vira). Na verdade, estes dois nomes são usados para dispositivos sutilmente diferentes, mas isto não interessa aqui. Interessa que nós buscamos, nos píncaros do academicismo, o palavrão "multivibrador biestável" para descrever a mesma coisa. Convenhamos, já estamos quase trocando Vossa Excelência por Vossa Majestade.

Antes de sairmos da questão da tradução, não posso deixar de comentar o curioso caso da palavra "mídia". Corruptelas em geral são formadas mudando-se a ortografia da palavra para aproximá-la da pronúncia local (é a transformação de goal keeper para golquipa, vista acima). Já "mídia" parece ser uma corruptela às avessas. Transformamos a palavra latina media (meios) para que fique mais parecida com a pronúncia intuitiva e errada de cidadãos de língua inglesa...

Mas o esforço, consciente ou não, de tornar a tecnologia algo distante e estranho não se resume a uma escolha particular de palavras. Eu poderia citar o exagero das siglas, mas o pior mesmo são algumas praticas de redação técnica. Se eu costumo reclamar do tom bolorento e pedante de alguns trabalhos academicos das áreas de humanidades, devo reconhecer que os da área tecnológica perdem feio, em particular com sua bizarra preferência pela voz passiva e pelas orações sem sujeito.

Se o estudante escreve "Fizemos as medidas apresentadas neste trabalho usando o equipamento tal do laboratório tal" fatalmente ouvirá que precisa escrever de maneira mais objetiva. Se ousar escrever "Fiz", pode ser expulso da sala, entre esconjuros e aspersões de água benta.

E eu confesso que o argumento da objetividade nunca me convenceu. "Fizeram-se as medidas..." faria o leitor desconfiar que seres superiores fizeram as medidas e deixaram o resultado em nosso laboratório para que os reportássemos, assim propagando a Verdade? Não é escamoteando o sujeito da oração que nos tornamos objetivos. A objetividade cientifica vem da garantia de neutralidade do método empregado em relação à tese defendida, da comparação clara de resultados com teses alternativas, da investigação de significância estatística nas diferenças encontradas. Usar a voz passiva, ou procurar despertar o sono no leitor, é a parte fácil.

Se vamos empregar criativamente a tecnologia, e vamos defender que seu estudo seja mais difundido e mais respeitado, que tal evitarmos a formalidade, a complexidade desnecessária, a redação artificial e enfadonha? Vamos tratá-lá por "você"?

domingo, 6 de novembro de 2011

Riscos II - O Fenômeno Linda

Em postagem anterior, verificamos que, por vezes, nossa avaliação intuitiva de riscos e da plausibilidade em situações hipotéticas está de acordo com a moderna Teoria de Probabilidade, mas em outros casos parece indicar caminhos muito diferentes. Há mais algumas manifestações curiosas deste problema. Acompanhemos, por exemplo, um experimento reportado pelos pesquisadores Tversky e Kahneman. Os sujeitos deste experimento, em sua maioria estudantes universitários, eram apresentados a um texto semelhante a este:

"Linda tem 31 anos, é solteira, desinibida e intelectualmente brilhante. Formou-se em Filosofia. Quando estudante, mostrou-se bastante preocupada com questões de discriminação e justiça social, e participou de protestos contra o uso de energia nuclear em seu país. "

Após lerem o texto, os sujeitos deveriam indicar o quanto uma série de afirmações sobre Linda era ou não provável, atribuindo números de 1 a 8. Entre as afirmativas, havia estas duas: 

A) Linda é bancária.
B) Linda é bancária, e participa do movimento feminista. 

Mais de 80% dos respondentes indicaram que B é mais provável que A, e este resultado é bastante estranho. Ocorre que, se tomarmos a palavra probabilidade no seu sentido matemático estrito, é absolutamente impossível que a afirmativa B seja mais provável que a afirmativa A, independentemente de quem seja Linda e quais sejam suas inclinações políticas e profissionais. E não é difícil compreender por quê: a alternativa B exige que seja verdadeira a alternativa A e mais alguma coisa. É claro que B só pode ser, na melhor das hipóteses, tão provável quanto A. Explicando de outro modo, imagine o conjunto de todas as bancárias da cidade onde Linda mora. Agora imagine o conjunto de bancárias feministas. É evidente que este conjunto é necessariamente menor ou igual ao primeiro (e só seria igual se todos as bancárias fossem também feministas). A probabilidade de Linda pertencer a um grupo menor (mais específico) não pode ser maior. Isto é uma questão tão clara que é fácil demonstrá-la a partir dos axiomas de probabilidade.

Este problema de julgamento não é um fenômeno isolado. Há diversos estudos indicando que tendemos a atribuir maior probabilidade a uma conjunção de eventos, em franca oposição ao fato de que a conjunção de vários eventos é necessariamente menos provável que seus eventos constituintes (ou apenas igualmente provável). Para citar dois outros casos:

1) Estudantes de Medicina, após lerem a descrição de um caso, atribuíram maior probabilidade à afirmativa "O Paciente tem as doenças A e B" do que a "O paciente tem a doença A". Mesmo que a doença B seja mais compatível com o quadro apresentado, não pode ser mais provável termos duas doenças simultâneas em vez de uma só.

2) Especialistas em Relações Internacionais, após lerem uma descrição sobre um cenário hipotético na relação entre nações, atribuíram probabilidade maior a "O país A vai invadir B e em seguida o país C vai declarar guerra a A", do que a "O pais C vai declarar guerra a A", que é um quadro mais vago, e por isso necessariamente mais provável.

Este fenômeno costuma ser denominado A Falácia da Conjunção, e discutir suas origens é interessante. Começamos reconhecendo que só existem duas alternativas: ou a maioria não consegue raciocinar corretamente sobre probabilidades, ou a maioria está dando a resposta correta a uma pergunta ligeiramente diferente daquela apresentada. Por motivos que já expus anteriormente, eu acredito que a segunda alternativa seja a correta.  

É preciso então procurar responder a duas questões: qual a pergunta corretamente respondida, e por que os sujeitos não compreenderam que a pergunta não é esta. As teorias são muitas, e não necessariamente excludentes entre si, mas aqui gostaria de discutir apenas uma delas, que atribui a resposta errada a um cálculo equivocado de probabilidades a posteriori

Antes de começarmos, uma pequena advertência: no que se segue, vamos admitir que as ideias estereotipadas que os sujeitos do experimento possam ter sobre feministas, filósofas e bancárias sejam corretas para o limitado efeito de dar a resposta correta ao problema proposto. Afinal, é um problema artificial e estereotipado, e não é esta a questão que nos interessa aqui. Queremos saber como, independentemente da qualidade de suas percepções sobre profissões e perfis de personalidade, os sujeitos chegaram a uma conclusão logicamente absurda. 

Vamos supor que não houvesse texto algum, e que a pergunta fosse, simplesmente, "Conheço alguém chamado Linda. Qual a chance de que ela seja bancária?". Naturalmente, ninguém em sã consciência lhe faria uma pergunta dessas, leitor(a), exceto talvez em um processo seletivo para empresa de consultoria, mas vejamos o que podemos fazer. 

Aparentemente, muito pouco. Talvez diríamos que esta probabilidade é igual à proporção de bancárias entre todas as terráqueas. Se nos fosse permitido fazer mais perguntas, poderíamos descobrir em que país e cidade mora Linda, qual sua idade, sua formação profissional, e com base nestas informações poderíamos melhorar nossa estimativa. Esta nova estimativa de probabilidade tendo por base alguma informação já adquirida (ou que se supõe ser verdadeira) é chamada probabilidade condicional, ou a posteriori

As afirmativas apresentadas aos sujeitos no caso Linda são claramente cálculos de probablidade condicional. A alternativa A pode ser re-escrita da seguinte forma: "Qual a probabilidade de que Linda seja bancária, dado que este texto é uma descrição fiel de Linda"? Pede-se uma estimativa da probabilidade de que Linda seja bancária (ou, na alternativa B, bancária feminista), tendo por base o texto descritivo. 

Alguns autores sugerem que os sujeitos da pesquisa erram porque estão identificando equivocadamente qual informação é dada a priori e qual probabilidade deve ser calculada a partir dela. Na verdade, eles teriam invertido as duas, e estariam respondendo a "Tenho uma amiga Linda, que é bancária. Qual a chance de esse texto se referir a ela"? Em primeira leitura, é até difícil perceber a sutil diferença entre as perguntas.

Com esta inversão, a resposta dada pela maioria não é logicamente inconsistente. Na verdade, pode-se mostrar que, com algumas hipóteses adicionais razoáveis (mais uma vez, razoáveis para o nível de estereótipos com que estamos lidando no problema), a resposta dos 80% está correta --- para a pergunta errada, é preciso insistir. Vejamos: argumentamos acima que a quantidade de bancárias feministas não pode ser maior que a quantidade de bancárias. No entanto, a proporção das bancárias feministas que se encaixam no perfil pode sim ser maior do que a proporção de bancárias que se encaixam no perfil. E, se for, não é difícil mostrar que os cálculos de probabilidade condicional nos levam realmente à resposta dada. 

O caso é análogo para os estudantes de Medicina. A pergunta, como feita, ("Dado este quadro clínico, você apostaria que o paciente tem a doença A ou as doenças A e B ao mesmo tempo"?), está respondida erradamente. Mas uma pergunta sutilmente diferente ("Tenho aqui um prontuário perdido. Ele veio deste paciente que tem doença A ou deste paciente, que tem a doença A mas também a B, mais compatível com o quadro descrito?") foi respondida corretamente.

Falta explicar por que os sujeitos, em todos esses casos, responderam a uma pergunta que não foi feita. Mostramos que a diferença é sutil, mas por que foi escolhida a alternativa errada, em todos os casos? Talvez isto ocorra simplesmente porque a pergunta originalmente feita não faz muito sentido. Voltemos ao caso médico. Não faz sentido algum pedir que se compare uma causa simples e uma composta para os sintomas apresentados, especialmente se uma das causas não parece ter  muita relação com eles. Não é tão surpreendente que a maioria escolha uma interpretação diferente: é preciso atribuir o prontuário existente, concreto,  a um de dois pacientes reais: o que tem a doença A e outro que tem as doenças A e B. 

Em resumo, a Falácia da Conjunção não parece estar de fato relacionada a complexidades inalcançáveis da Probabilidade, mas na nossa tendência, de resto bastante útil, de acreditar que a pergunta que nos foi feita deve corresponder a alguma questão de interesse no  mundo real.