sexta-feira, 26 de setembro de 2014

AJUSTES DE BONFERRONI: CONSERVADORISMO CONTRAPRODUCENTE A SIGNIFICÂNCIA BIOLÓGICA



1 – Aluno.  Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.
2 – Laboratório de Fisiologia do Exercício, Faculdade Estácio de Sá de Vitória, ES, Brasil
3 – Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.

INTRODUÇÃO

            Nesses tempos de pós-graduação e boas companhias de amigos e colegas acadêmicos, refletimos muito sobre as aplicações e relevâncias de procedimentos estatísticos. Temos, por exemplo, a famosa hipótese nula que é muito importante para o processo de testagem de hipóteses. Está é a probabilidade que calculamos nos testes estatísticos que é baseada na hipótese que não existe relacionamento ou diferença entre as variáveis analisadas na amostra estudada.

Além disso, temos os erros que nos acompanham feito fantasmas que sussurram em nossos ouvidos enquanto analisamos os nossos dados, e nos remetem a dúvida cruel porém pertinente sobre a possibilidade de nossos resultados serem falso positivos ou falso negativos.

Enquanto isso, até o cantor e compositor Gilberto Gil quando compôs a música intitulada “Estrela”. O mesmo também tem hipóteses e ainda testa a possibilidade de erros tipo I e tipo II na sua própria afirmação. Sugiro que o leitor ouça a música.

Para entender melhor o processo, suponha que realizamos uma pesquisa em nossa especialização, mestrado ou doutorado e assumimos que a hipótese nula seja verdadeira (não existem diferenças entre os tratamentos ou grupos). No entanto, concluíamo ao final do estudo que a periodização X foi melhor do que a periodização Y. Nesse caso, apontamos uma diferença onde na verdade ela não existe. Cometemos o erro tipo I. Lembra do sussurro do fantasma?

Agora podemos falar de outro tipo de erro. Nesse caso a hipótese nula é falsa. Assim, rejeitamos a hipótese nula e assumimos que a periodização X não é melhor do que a periodização Y quando na verdade ela é. Claramente cometemos o erro tipo II. Mais uma vez o sussurro nos perturba.

O leitor agora deve estar se perguntando. Mas o que o ajuste de Bonferroni tem a ver com isso? A resposta é: tudo. Só que preciso explicar algumas outras coisas para o melhor entendimento desse ajuste.

            Nem tudo que é importante por ser medido e nem tudo que pode ser medido é importante (atribuído ao Einstein). Isso é claramente uma reflexão sobre a distinção entre a relevância da significância estatística e significância clínica ou biológica. Para muitos pesquisadores a palavra “significativo” significa “importante”, mas no mundo dos estatísticos é apenas uma declaração da probabilidade do resultado ser atribuído a chance, mas que não é importante. Na parte da prática clínica, quanto ou não o resultado é significante é baseado na sua importância e implicações na prática, ou seja, o valor prático de um resultado em particular.

Muitas vezes o pesquisador quer encontrar a mínima diferença clínica importante em uma pesquisa. Isso deve ser a diferença que o investigador acredita ser importante ou biologicamente plausível. Por exemplo, se a pressão arterial é a variável de maior interesse, o investigador pode escolher uma diferença de 3 mmHg como clinicamente relevante para a pressão arterial sistólica.

            No entanto, a forma de condução do estudo (delineamento) dita também o tipo de estatística que o pesquisador vai utilizar. Ele pode analisar o período inicial antes da intervenção (exercício, dieta e etc) e após a intervenção. Neste tipo de delineamento, temos dois períodos, logo o teste mais indicado é o teste t. O teste t pode ser pareado (dependente) ou não pareado (independente) com característica paramétrica ou não paramétrica. Essa parte de teste paramétrico ou não paramétrico depende da característica da variável que você vai analisar. Se a variável é normalmente distribuída ou não o teste ainda tem o mesmo objetivo, que é de comparar um momento com outro, só o nome que muda. 

            Quando temos mais de dois momentos. Agora inicial, após 12 semanas e após 24 semanas de intervenção. O teste mais indicado nesse tipo de delineamento é uma análise de variância (ANOVA) de medidas repetidas.

            Não sei se nesse momento você refletiu sobre as diferenças entre os dois testes que mencionei anteriormente, mas algumas perguntas que os alunos nos fazem em uma palestra sobre estatística são pertinentes.

1.      E se eu quiser aplicar o teste t para comparar os três momentos?

2.      Posso fazer isso?

3.      Tenho que aplicar realmente a ANOVA de medidas repetidas?

Vamos agora para o nosso exemplo.

Exemplo 1.

            Durante a graduação no curso de Educação Física, um aluno de iniciação científica (IC) procurou saber se o treinamento resistido (TR) podia ser usado como uma forma de tratamento não farmacológico na hipertensão arterial sistêmica (HAS). Seguindo minuciosamente as orientações de seus professores ele fez uma revisão de literatura e encontrou evidências de que o TR controla e diminui a pressão arterial (PA) em indivíduos hipertensos. Como ele queria se especializar em idosos e queria que esse tema fosse o seu projeto de trabalho de conclusão de curso (TCC). Decidiu estudar sobre o assunto e comparou a PA antes de realizar o TR e após 14­ semanas de treinamento em idosas hipertensas.

            Como eram as mesmas participantes (vide tabela 1) a comparação foi pareada. Por isso, como são dois momentos e os mesmos indivíduos analisados, o test t dependente é o mais indicado para esse tipo de delineamento.

Tabela 1.*
Momento 1
Momento 2
Momento 3
Participantes
Pré-treino PAS
Pós-treino PAS (14 semanas)
Pós-treino PAS (28 semanas)
1
160,00 mmHg
130,00 mmHg
122,00 mmHg
2
155,00 mmHg
142,00 mmHg
121,00 mmHg
3
148,00 mmHg
127,00 mmHg
124,00 mmHg
4
158,00 mmHg
125,00 mmHg
119,00 mmHg
5
162,00 mmHg
134,00 mmHg
123,00 mmHg
Média
156,60
131,60
121,80
Desvio Padrão
5,46
6,73
1,92

            Legenda: PAS = pressão arterial sistólica; mmHg = milímetros por mercúrio; * = dados fictícios.

Vamos supor agora que de repente ele queira avaliar em três momentos e resolva prolongar o seu projeto avaliando também os efeitos após 28 semanas de treinamento. Neste momento, o test t não é o tratamento estatístico mais indicado para se aplicar aos dados, pois temos três momentos (outros tratamentos estatísticos como as análises de variância possuem melhor aderência a esse tipo de delineamento). Mas, e se aplicarmos vários testes t aos dados?

Por que não realizar vários testes t para comparar os momentos?

            Quando realizamos uma pesquisa e aplicamos múltiplos testes para a análise de nossos dados aumentamos as taxas de erros, ou melhor, inflacionamos um tipo de erro. Concluímos que não houve diferenças entre os tratamos quando na verdade houve (erro tipo II) ou concluímos que houve diferenças entre os tratamentos quando na verdade não houve (erro tipo I).

Ao realizarmos múltiplos testes inflacionamos o erro tipo I ou erro de experimento. Para calcular o erro de conjunto é muito simples. Considerando a equação abaixo (1.0), onde n é o número de testes realizados com os dados. Vamos supor que três testes t foram aplicados para os seguintes momentos: momento 1 versus.momento 2, momento 2 versus momento 3 e momento 1 versus momento 3.

Erro de conjunto = 1 – (0,95)n (1.0)

Como três testes foram realizados o valor do erro do experimento foi de (0,95)3 = 0,857. Ou seja, a probabilidade de ter cometido o erro do tipo 1 foi de 1 – 0,85 = 0,14 ou 14%. Com isso, a taxa de erro tipo I aumentou de 5% para 14%.

Corrigindo o valor de p pelo Post Hoc de Bonferroni?

Normalmente, em pesquisas científicas o valor de p ≤ 0,05 é adotado. Então, ao rodar um teste estatístico como o teste de comparações, pode-se obter para os resultados um valor de p ≤ 0,05 ou > que 0,05. O que ficar abaixo ou igual a 0,05 é considerado significativo e o que ficar acima disso é considerado não significativo.

Considerando o exemplo do aluno de IC (tabela 1) que rodou o teste t dependente comparando os momentos 1 vs. 2 encontrando um p = 0,002. Concluímos que o TR diminuiu significativamente a PAS das idosas ao final do treinamento. No entanto, como ele decidiu também avaliar depois de 28 semanas, ele comparou o momento 2 vs. momento 3 e comparou o momento 1 vs. momento 3 e obteve valores de p = 0,03 e 0,001, respectivamente.

Na descrição dos resultados o aluno empolgadamente reportou que o protocolo de TR adotado por ele foi significativamente efetivo em abaixar os valores da PAS de mulheres idosas hipertensas. Sendo que a PAS no momento 2 foi significativamente menor em relação ao momento 1 e ao momento 3 e que a PAS no momento 3 foi significativamente menor em relação ao momento 1.

Agora, deixando a empolgação de lado, fica claro que testes múltiplos foram realizados e que as diferenças encontradas na verdade podem não existir (erro tipo I).

Como então aplicar a correção pelo Post Hoc de Bonferroni nesses dados?

Para evitar a inflação do erro tipo I em pesquisas da área da saúde sugere-se que uma correção do valor de p seja realizada (1). A sua correção é muito simples. Apenas divide-se o valor de p pelo número de comparações realizadas (p = 0,05/3). Portanto, o valor de p ≤ 0,01 será o novo nível de significância adotado no exemplo do aluno de IC. Agora, analisando novamente os resultados verifica-se que algumas das diferenças encontradas na verdade não são reais e que ficaram acima da probabilidade de corte.

Em estudos com delineamentos correlacionais onde correlações múltiplas são realizadas a correção de p pelo Post Hoc de Bonferroni pode também ser aplicada (2).

O que há de errado com as correções feitas pelo Post Hoc de Bonferroni?

Esse tópico sobre ajustes do valor de p é um dos que praticantes em estatística pensam ser crucial e que alguns outros pensam ser irrelevante. Embora eu tenda para o primeiro grupo, considero importante e concordo com a opinião de autores que pensam ao contrário.

Umas das limitações dos ajustes de p é que muitas hipóteses nulas (de que não há diferenças entre os momentos) são aceitas quando na verdade estão erradas (erro tipo II) (3, 4). Por exemplo, diferenças intragrupo entre momentos pré e pós na força muscular medida por uma repetição máxima (1 RM) pode ser diferente ou não significativamente se outras análises comparativas como resistência muscular, percepção subjetiva de esforço e composição corporal forem também testadas. Portanto, o problema de se utilizar a correção pelo Post Hoc de Bonferroni é que o controle da taxa de erro acarreta a perda do poder estatístico. Deixamos de encontrar uma diferença genuína nos dados.

Cuidados na interpretação do valor de p após as correções pelo Post Hoc

É importante entender que o valor de p muitas vezes não estabelece medida de importância e não fornece mais informação do que isso (5).

A interpretação da importância clínica deve ser realizada pelo pesquisador ou o leitor. Há dados científicos que declínios na PAS de 10 mmHg identificado no exemplo 1 diminui em 34% os riscos de derrame em uma população na faixa etária de 60 – 69 anos de idade (6). Então, verifica-se que apesar das diferenças encontradas não serem estatisticamente significativas. Do ponto de vista clínico, o declínio na PAS após 14 semanas de treinamento foi muito importante para a amostra de idosas hipertensas estudadas.    A grande mensagem aqui para o leitor é que o valor de p é um pedacinho de uma informação presente em um artigo muito limitada. Uma distorção comumente verificada nos artigos que são publicados é que o termo “diferença estatística” é utilizado ambiguamente. Ou seja, é difícil entender pelos resultados de um estudo que o autor quis se referir à diferença estatística ou a importância prática clínica dos resultados.

Por isso caros leitores e revisores de artigos científicos. Muitas vezes o ajuste de Bonferroni é um conservadorismo contraproducente a significância biológica. Nem sempre ele é necessário.

Referências

1.            Ottenbacher KJ. Statistical conclusion validity. Multiple inferences in rehabilitation research. Am J Phys Med Rehabil. 1991 Dec;70(6):317-22.

2.         Curtin F, Schulz P. Multiple correlations and Bonferroni's correction. Biol Psychiatry. 1998 Oct 15;44(8):775-7.

3.         Perneger TV. What's wrong with Bonferroni adjustments. BMJ. 1998 Apr 18;316(7139):1236-8.

4.         Rothman KJ. No adjustments are needed for multiple comparisons. Epidemiology. 1990 Jan;1(1):43-6.

5.         Kalinowski P, Fidler F. Interpreting Significance: The Differences Between Statistical Significance, Effect Size, and Practical Importance. Newborn & Infant Nursing Reviews 2010;10(1):50-4.

6.         Lawes CM, Bennett DA, Feigin VL, Rodgers A. Blood pressure and stroke: an overview of published reviews. Stroke. 2004 Mar;35(3):776-85.

Professor Dr. Dahan da Cunha Nascimento.