Dahan da CunhaNascimento1, Nuno Manoel Frade de Sousa2, Ramires AlsamirTibana1, Jonato Prestes3
1 – Aluno. Programa de Pós-Graduação Stricto Sensu,
Faculdade de Educação Física, Universidade Católica de Brasília (UCB) –
Brasília (DF) – Brasil.
2 – Laboratório de Fisiologia do Exercício, Faculdade Estácio de Sá de Vitória, ES, Brasil
3 – Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.
2 – Laboratório de Fisiologia do Exercício, Faculdade Estácio de Sá de Vitória, ES, Brasil
3 – Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.
INTRODUÇÃO
Nesses tempos de
pós-graduação e boas companhias de amigos e colegas acadêmicos, refletimos
muito sobre as aplicações e relevâncias de procedimentos estatísticos. Temos,
por exemplo, a famosa hipótese nula que é muito importante para o processo de
testagem de hipóteses. Está é a probabilidade que calculamos nos testes
estatísticos que é baseada na hipótese que não existe relacionamento ou
diferença entre as variáveis analisadas na amostra estudada.
Além
disso, temos os erros que nos acompanham feito fantasmas que sussurram em
nossos ouvidos enquanto analisamos os nossos dados, e nos remetem a dúvida
cruel porém pertinente sobre a possibilidade de nossos resultados serem falso
positivos ou falso negativos.
Enquanto
isso, até o cantor e compositor Gilberto Gil quando compôs a música intitulada “Estrela”.
O mesmo também tem hipóteses e ainda testa a possibilidade de erros tipo I e tipo
II na sua própria afirmação. Sugiro que o leitor ouça a música.
Para
entender melhor o processo, suponha que realizamos uma pesquisa em nossa
especialização, mestrado ou doutorado e assumimos que a hipótese nula seja
verdadeira (não existem diferenças entre os tratamentos ou grupos). No entanto, concluíamo ao
final do estudo que a periodização X foi melhor do que a periodização Y. Nesse
caso, apontamos uma diferença onde na verdade ela não existe. Cometemos o erro
tipo I. Lembra do sussurro do fantasma?
Agora
podemos falar de outro tipo de erro. Nesse caso a hipótese nula é falsa. Assim,
rejeitamos a hipótese nula e assumimos que a periodização X não é melhor do que
a periodização Y quando na verdade ela é. Claramente cometemos o erro tipo II.
Mais uma vez o sussurro nos perturba.
O
leitor agora deve estar se perguntando. Mas o que o ajuste de Bonferroni tem a ver com isso? A
resposta é: tudo. Só que preciso explicar algumas outras coisas para o melhor
entendimento desse ajuste.
Nem tudo que é importante por ser medido e nem tudo que
pode ser medido é importante (atribuído ao Einstein). Isso é claramente uma
reflexão sobre a distinção entre a relevância da significância estatística e
significância clínica ou biológica. Para muitos pesquisadores a palavra
“significativo” significa “importante”, mas no mundo dos estatísticos é apenas
uma declaração da probabilidade do resultado ser atribuído a chance, mas que
não é importante. Na parte da prática clínica, quanto ou não o resultado é significante
é baseado na sua importância e implicações na prática, ou seja, o valor prático
de um resultado em particular.
Muitas
vezes o pesquisador quer encontrar a mínima diferença clínica importante em uma
pesquisa. Isso deve ser a diferença que o investigador acredita ser importante
ou biologicamente plausível. Por exemplo, se a pressão arterial é a variável de
maior interesse, o investigador pode escolher uma diferença de 3 mmHg como clinicamente
relevante para a pressão arterial sistólica.
No entanto, a forma de condução do estudo (delineamento)
dita também o tipo de estatística que o pesquisador vai utilizar. Ele pode
analisar o período inicial antes da intervenção (exercício, dieta e etc) e após
a intervenção. Neste tipo de delineamento, temos dois períodos, logo o teste
mais indicado é o teste t. O teste t pode ser pareado (dependente) ou não
pareado (independente) com característica paramétrica ou não paramétrica. Essa
parte de teste paramétrico ou não paramétrico depende da característica da
variável que você vai analisar. Se a variável é normalmente distribuída ou não
o teste ainda tem o mesmo objetivo, que é de comparar um momento com outro, só
o nome que muda.
Quando temos mais de dois momentos. Agora inicial, após
12 semanas e após 24 semanas de intervenção. O teste mais indicado nesse tipo
de delineamento é uma análise de variância (ANOVA) de medidas repetidas.
Não sei se nesse momento você refletiu sobre as
diferenças entre os dois testes que mencionei anteriormente, mas algumas
perguntas que os alunos nos fazem em uma palestra sobre estatística são
pertinentes.
1.
E se eu quiser aplicar o teste t para comparar os três momentos?
2.
Posso fazer isso?
3.
Tenho que aplicar realmente a ANOVA de
medidas repetidas?
Vamos agora para o
nosso exemplo.
Exemplo
1.
Durante a graduação no curso de
Educação Física, um aluno de iniciação científica (IC) procurou saber se o
treinamento resistido (TR) podia ser usado como uma forma de tratamento não
farmacológico na hipertensão arterial sistêmica (HAS). Seguindo minuciosamente
as orientações de seus professores ele fez uma revisão de literatura e
encontrou evidências de que o TR controla e diminui a pressão arterial (PA) em
indivíduos hipertensos. Como ele queria se especializar em idosos e queria que
esse tema fosse o seu projeto de trabalho de conclusão de curso (TCC). Decidiu
estudar sobre o assunto e comparou a PA antes de realizar o TR e após 14
semanas de treinamento em idosas hipertensas.
Como eram as mesmas participantes
(vide tabela 1) a comparação foi pareada. Por isso, como são dois momentos e os
mesmos indivíduos analisados, o test t dependente
é o mais indicado para esse tipo de delineamento.
Tabela
1.*
|
Momento
1
|
Momento
2
|
Momento
3
|
Participantes
|
Pré-treino
PAS
|
Pós-treino
PAS (14 semanas)
|
Pós-treino
PAS (28 semanas)
|
1
|
160,00 mmHg
|
130,00 mmHg
|
122,00 mmHg
|
2
|
155,00 mmHg
|
142,00 mmHg
|
121,00 mmHg
|
3
|
148,00 mmHg
|
127,00 mmHg
|
124,00 mmHg
|
4
|
158,00 mmHg
|
125,00 mmHg
|
119,00 mmHg
|
5
|
162,00 mmHg
|
134,00 mmHg
|
123,00 mmHg
|
Média
|
156,60
|
131,60
|
121,80
|
Desvio
Padrão
|
5,46
|
6,73
|
1,92
|
Legenda:
PAS = pressão arterial sistólica; mmHg = milímetros por mercúrio; * = dados
fictícios.
Vamos
supor agora que de repente ele queira avaliar em três momentos e resolva
prolongar o seu projeto avaliando também os efeitos após 28 semanas de
treinamento. Neste momento, o test t não
é o tratamento estatístico mais indicado para se aplicar aos dados, pois temos
três momentos (outros tratamentos estatísticos como as análises de variância
possuem melhor aderência a esse tipo de delineamento). Mas, e se aplicarmos
vários testes t aos dados?
Por que não realizar vários testes t para comparar os momentos?
Quando realizamos uma pesquisa e
aplicamos múltiplos testes para a análise de nossos dados aumentamos as taxas
de erros, ou melhor, inflacionamos um tipo de erro. Concluímos que não houve
diferenças entre os tratamos quando na verdade houve (erro tipo II) ou
concluímos que houve diferenças entre os tratamentos quando na verdade não
houve (erro tipo I).
Ao realizarmos múltiplos
testes inflacionamos o erro tipo I ou erro de experimento. Para calcular o erro
de conjunto é muito simples. Considerando a equação abaixo (1.0), onde n é o número
de testes realizados com os dados. Vamos supor que três testes t foram aplicados para os seguintes
momentos: momento 1 versus.momento 2,
momento 2 versus momento 3 e momento
1 versus momento 3.
Erro de
conjunto = 1 – (0,95)n (1.0)
Como
três testes foram realizados o valor do erro do experimento foi de (0,95)3
= 0,857. Ou seja, a probabilidade de ter cometido o erro do tipo 1 foi de 1 –
0,85 = 0,14 ou 14%. Com isso, a taxa de erro tipo I aumentou de 5% para 14%.
Corrigindo o valor de p pelo Post Hoc de Bonferroni?
Normalmente,
em pesquisas científicas o valor de p ≤ 0,05 é adotado. Então, ao rodar um
teste estatístico como o teste de comparações, pode-se obter para os resultados
um valor de p ≤ 0,05 ou > que 0,05. O que ficar abaixo ou igual a 0,05 é
considerado significativo e o que ficar acima disso é considerado não
significativo.
Considerando
o exemplo do aluno de IC (tabela 1) que rodou o teste t dependente comparando os momentos 1 vs. 2 encontrando um p = 0,002. Concluímos que o TR diminuiu
significativamente a PAS das idosas ao final do treinamento. No entanto, como
ele decidiu também avaliar depois de 28 semanas, ele comparou o momento 2 vs. momento 3 e comparou o momento 1 vs. momento 3 e obteve valores de p =
0,03 e 0,001, respectivamente.
Na
descrição dos resultados o aluno empolgadamente reportou que o protocolo de TR
adotado por ele foi significativamente efetivo em abaixar os valores da PAS de
mulheres idosas hipertensas. Sendo que a PAS no momento 2 foi
significativamente menor em relação ao momento 1 e ao momento 3 e que a PAS no
momento 3 foi significativamente menor em relação ao momento 1.
Agora,
deixando a empolgação de lado, fica claro que testes múltiplos foram realizados
e que as diferenças encontradas na verdade podem não existir (erro tipo I).
Como então aplicar a correção pelo Post Hoc de Bonferroni nesses dados?
Para
evitar a inflação do erro tipo I em pesquisas da área da saúde sugere-se que
uma correção do valor de p seja realizada (1). A sua correção é muito
simples. Apenas divide-se o valor de p pelo número de comparações realizadas (p
= 0,05/3). Portanto, o valor de p ≤ 0,01 será o novo nível de significância
adotado no exemplo do aluno de IC. Agora, analisando novamente os resultados
verifica-se que algumas das diferenças encontradas na verdade não são reais e
que ficaram acima da probabilidade de corte.
Em
estudos com delineamentos correlacionais onde correlações múltiplas são
realizadas a correção de p pelo Post Hoc de Bonferroni pode também ser aplicada (2).
O que há de errado com as correções feitas pelo
Post Hoc de Bonferroni?
Esse
tópico sobre ajustes do valor de p é um dos que praticantes em estatística
pensam ser crucial e que alguns outros pensam ser irrelevante. Embora eu tenda
para o primeiro grupo, considero importante e concordo com a opinião de autores
que pensam ao contrário.
Umas das
limitações dos ajustes de p é que muitas hipóteses nulas (de que não há
diferenças entre os momentos) são aceitas quando na verdade estão erradas (erro
tipo II) (3, 4). Por exemplo, diferenças intragrupo entre
momentos pré e pós na força muscular medida por uma repetição máxima (1 RM)
pode ser diferente ou não significativamente se outras análises comparativas
como resistência muscular, percepção subjetiva de esforço e composição corporal
forem também testadas. Portanto, o problema de se utilizar a correção pelo Post Hoc de Bonferroni é que o controle da taxa de erro acarreta a perda do
poder estatístico. Deixamos de encontrar uma diferença genuína nos dados.
Cuidados na interpretação do valor de p após as
correções pelo Post Hoc
É
importante entender que o valor de p muitas vezes não estabelece medida de
importância e não fornece mais informação do que isso (5).
A
interpretação da importância clínica deve ser realizada pelo pesquisador ou o
leitor. Há dados científicos que declínios na PAS de 10 mmHg identificado no
exemplo 1 diminui em 34% os riscos de derrame em uma população na faixa etária
de 60 – 69 anos de idade (6). Então, verifica-se que apesar das diferenças
encontradas não serem estatisticamente significativas. Do ponto de vista
clínico, o declínio na PAS após 14 semanas de treinamento foi muito importante
para a amostra de idosas hipertensas estudadas. A grande mensagem aqui para o leitor é que o valor de p é um
pedacinho de uma informação presente em um artigo muito limitada. Uma distorção
comumente verificada nos artigos que são publicados é que o termo “diferença
estatística” é utilizado ambiguamente. Ou seja, é difícil entender pelos
resultados de um estudo que o autor quis se referir à diferença estatística ou
a importância prática clínica dos resultados.
Por isso
caros leitores e revisores de artigos científicos. Muitas vezes o ajuste de Bonferroni
é um conservadorismo contraproducente a significância biológica. Nem sempre ele
é necessário.
Referências
1. Ottenbacher KJ. Statistical conclusion validity. Multiple
inferences in rehabilitation research. Am J Phys Med Rehabil. 1991
Dec;70(6):317-22.
2. Curtin F, Schulz P. Multiple
correlations and Bonferroni's correction. Biol Psychiatry. 1998 Oct
15;44(8):775-7.
3. Perneger TV. What's wrong with
Bonferroni adjustments. BMJ. 1998 Apr 18;316(7139):1236-8.
4. Rothman KJ. No adjustments are needed
for multiple comparisons. Epidemiology. 1990 Jan;1(1):43-6.
5. Kalinowski P, Fidler F. Interpreting
Significance: The Differences Between Statistical Significance, Effect Size,
and Practical Importance. Newborn & Infant Nursing Reviews 2010;10(1):50-4.
6. Lawes CM,
Bennett DA, Feigin VL, Rodgers A. Blood pressure and stroke: an overview of
published reviews. Stroke. 2004 Mar;35(3):776-85.
Professor Dr. Dahan da Cunha Nascimento.