Métodos de Pesquisa em Educação Física e Ciência do Exercício: 2014

sexta-feira, 26 de setembro de 2014

AJUSTES DE BONFERRONI: CONSERVADORISMO CONTRAPRODUCENTE A SIGNIFICÂNCIA BIOLÓGICA

Dahan da CunhaNascimento¹, Nuno Manoel Frade de Sousa², Ramires AlsamirTibana¹, Jonato Prestes³

1 – Aluno. Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.
2 – Laboratório de Fisiologia do Exercício, Faculdade Estácio de Sá de Vitória, ES, Brasil
3 – Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.

INTRODUÇÃO

Nesses tempos de pós-graduação e boas companhias de amigos e colegas acadêmicos, refletimos muito sobre as aplicações e relevâncias de procedimentos estatísticos. Temos, por exemplo, a famosa hipótese nula que é muito importante para o processo de testagem de hipóteses. Está é a probabilidade que calculamos nos testes estatísticos que é baseada na hipótese que não existe relacionamento ou diferença entre as variáveis analisadas na amostra estudada.

Além disso, temos os erros que nos acompanham feito fantasmas que sussurram em nossos ouvidos enquanto analisamos os nossos dados, e nos remetem a dúvida cruel porém pertinente sobre a possibilidade de nossos resultados serem falso positivos ou falso negativos.

Enquanto isso, até o cantor e compositor Gilberto Gil quando compôs a música intitulada “Estrela”. O mesmo também tem hipóteses e ainda testa a possibilidade de erros tipo I e tipo II na sua própria afirmação. Sugiro que o leitor ouça a música.

Para entender melhor o processo, suponha que realizamos uma pesquisa em nossa especialização, mestrado ou doutorado e assumimos que a hipótese nula seja verdadeira (não existem diferenças entre os tratamentos ou grupos). No entanto, concluíamo ao final do estudo que a periodização X foi melhor do que a periodização Y. Nesse caso, apontamos uma diferença onde na verdade ela não existe. Cometemos o erro tipo I. Lembra do sussurro do fantasma?

Agora podemos falar de outro tipo de erro. Nesse caso a hipótese nula é falsa. Assim, rejeitamos a hipótese nula e assumimos que a periodização X não é melhor do que a periodização Y quando na verdade ela é. Claramente cometemos o erro tipo II. Mais uma vez o sussurro nos perturba.

O leitor agora deve estar se perguntando. Mas o que o ajuste de Bonferroni tem a ver com isso? A resposta é: tudo. Só que preciso explicar algumas outras coisas para o melhor entendimento desse ajuste.

Nem tudo que é importante por ser medido e nem tudo que pode ser medido é importante (atribuído ao Einstein). Isso é claramente uma reflexão sobre a distinção entre a relevância da significância estatística e significância clínica ou biológica. Para muitos pesquisadores a palavra “significativo” significa “importante”, mas no mundo dos estatísticos é apenas uma declaração da probabilidade do resultado ser atribuído a chance, mas que não é importante. Na parte da prática clínica, quanto ou não o resultado é significante é baseado na sua importância e implicações na prática, ou seja, o valor prático de um resultado em particular.

Muitas vezes o pesquisador quer encontrar a mínima diferença clínica importante em uma pesquisa. Isso deve ser a diferença que o investigador acredita ser importante ou biologicamente plausível. Por exemplo, se a pressão arterial é a variável de maior interesse, o investigador pode escolher uma diferença de 3 mmHg como clinicamente relevante para a pressão arterial sistólica.

No entanto, a forma de condução do estudo (delineamento) dita também o tipo de estatística que o pesquisador vai utilizar. Ele pode analisar o período inicial antes da intervenção (exercício, dieta e etc) e após a intervenção. Neste tipo de delineamento, temos dois períodos, logo o teste mais indicado é o teste t. O teste t pode ser pareado (dependente) ou não pareado (independente) com característica paramétrica ou não paramétrica. Essa parte de teste paramétrico ou não paramétrico depende da característica da variável que você vai analisar. Se a variável é normalmente distribuída ou não o teste ainda tem o mesmo objetivo, que é de comparar um momento com outro, só o nome que muda.

Quando temos mais de dois momentos. Agora inicial, após 12 semanas e após 24 semanas de intervenção. O teste mais indicado nesse tipo de delineamento é uma análise de variância (ANOVA) de medidas repetidas.

Não sei se nesse momento você refletiu sobre as diferenças entre os dois testes que mencionei anteriormente, mas algumas perguntas que os alunos nos fazem em uma palestra sobre estatística são pertinentes.

1. E se eu quiser aplicar o teste t para comparar os três momentos?

2. Posso fazer isso?

3. Tenho que aplicar realmente a ANOVA de medidas repetidas?

Vamos agora para o nosso exemplo.

Exemplo 1.

Durante a graduação no curso de Educação Física, um aluno de iniciação científica (IC) procurou saber se o treinamento resistido (TR) podia ser usado como uma forma de tratamento não farmacológico na hipertensão arterial sistêmica (HAS). Seguindo minuciosamente as orientações de seus professores ele fez uma revisão de literatura e encontrou evidências de que o TR controla e diminui a pressão arterial (PA) em indivíduos hipertensos. Como ele queria se especializar em idosos e queria que esse tema fosse o seu projeto de trabalho de conclusão de curso (TCC). Decidiu estudar sobre o assunto e comparou a PA antes de realizar o TR e após 14 semanas de treinamento em idosas hipertensas.

Como eram as mesmas participantes (vide tabela 1) a comparação foi pareada. Por isso, como são dois momentos e os mesmos indivíduos analisados, o test t dependente é o mais indicado para esse tipo de delineamento.

Tabela 1.*	Momento 1	Momento 2	Momento 3
Participantes	Pré-treino PAS	Pós-treino PAS (14 semanas)	Pós-treino PAS (28 semanas)
1	160,00 mmHg	130,00 mmHg	122,00 mmHg
2	155,00 mmHg	142,00 mmHg	121,00 mmHg
3	148,00 mmHg	127,00 mmHg	124,00 mmHg
4	158,00 mmHg	125,00 mmHg	119,00 mmHg
5	162,00 mmHg	134,00 mmHg	123,00 mmHg
Média	156,60	131,60	121,80
Desvio Padrão	5,46	6,73	1,92

Legenda: PAS = pressão arterial sistólica; mmHg = milímetros por mercúrio; * = dados fictícios.

Vamos supor agora que de repente ele queira avaliar em três momentos e resolva prolongar o seu projeto avaliando também os efeitos após 28 semanas de treinamento. Neste momento, o test t não é o tratamento estatístico mais indicado para se aplicar aos dados, pois temos três momentos (outros tratamentos estatísticos como as análises de variância possuem melhor aderência a esse tipo de delineamento). Mas, e se aplicarmos vários testes t aos dados?

Por que não realizar vários testes t para comparar os momentos?

Quando realizamos uma pesquisa e aplicamos múltiplos testes para a análise de nossos dados aumentamos as taxas de erros, ou melhor, inflacionamos um tipo de erro. Concluímos que não houve diferenças entre os tratamos quando na verdade houve (erro tipo II) ou concluímos que houve diferenças entre os tratamentos quando na verdade não houve (erro tipo I).

Ao realizarmos múltiplos testes inflacionamos o erro tipo I ou erro de experimento. Para calcular o erro de conjunto é muito simples. Considerando a equação abaixo (1.0), onde n é o número de testes realizados com os dados. Vamos supor que três testes t foram aplicados para os seguintes momentos: momento 1 versus.momento 2, momento 2 versus momento 3 e momento 1 versus momento 3.

Erro de conjunto = 1 – (0,95)ⁿ (1.0)

Como três testes foram realizados o valor do erro do experimento foi de (0,95)³ = 0,857. Ou seja, a probabilidade de ter cometido o erro do tipo 1 foi de 1 – 0,85 = 0,14 ou 14%. Com isso, a taxa de erro tipo I aumentou de 5% para 14%.

Corrigindo o valor de p pelo Post Hoc de Bonferroni?

Normalmente, em pesquisas científicas o valor de p ≤ 0,05 é adotado. Então, ao rodar um teste estatístico como o teste de comparações, pode-se obter para os resultados um valor de p ≤ 0,05 ou > que 0,05. O que ficar abaixo ou igual a 0,05 é considerado significativo e o que ficar acima disso é considerado não significativo.

Considerando o exemplo do aluno de IC (tabela 1) que rodou o teste t dependente comparando os momentos 1 vs. 2 encontrando um p = 0,002. Concluímos que o TR diminuiu significativamente a PAS das idosas ao final do treinamento. No entanto, como ele decidiu também avaliar depois de 28 semanas, ele comparou o momento 2 vs. momento 3 e comparou o momento 1 vs. momento 3 e obteve valores de p = 0,03 e 0,001, respectivamente.

Na descrição dos resultados o aluno empolgadamente reportou que o protocolo de TR adotado por ele foi significativamente efetivo em abaixar os valores da PAS de mulheres idosas hipertensas. Sendo que a PAS no momento 2 foi significativamente menor em relação ao momento 1 e ao momento 3 e que a PAS no momento 3 foi significativamente menor em relação ao momento 1.

Agora, deixando a empolgação de lado, fica claro que testes múltiplos foram realizados e que as diferenças encontradas na verdade podem não existir (erro tipo I).

Como então aplicar a correção pelo Post Hoc de Bonferroni nesses dados?

Para evitar a inflação do erro tipo I em pesquisas da área da saúde sugere-se que uma correção do valor de p seja realizada (1). A sua correção é muito simples. Apenas divide-se o valor de p pelo número de comparações realizadas (p = 0,05/3). Portanto, o valor de p ≤ 0,01 será o novo nível de significância adotado no exemplo do aluno de IC. Agora, analisando novamente os resultados verifica-se que algumas das diferenças encontradas na verdade não são reais e que ficaram acima da probabilidade de corte.

Em estudos com delineamentos correlacionais onde correlações múltiplas são realizadas a correção de p pelo Post Hoc de Bonferroni pode também ser aplicada (2).

O que há de errado com as correções feitas pelo Post Hoc de Bonferroni?

Esse tópico sobre ajustes do valor de p é um dos que praticantes em estatística pensam ser crucial e que alguns outros pensam ser irrelevante. Embora eu tenda para o primeiro grupo, considero importante e concordo com a opinião de autores que pensam ao contrário.

Umas das limitações dos ajustes de p é que muitas hipóteses nulas (de que não há diferenças entre os momentos) são aceitas quando na verdade estão erradas (erro tipo II) (3, 4). Por exemplo, diferenças intragrupo entre momentos pré e pós na força muscular medida por uma repetição máxima (1 RM) pode ser diferente ou não significativamente se outras análises comparativas como resistência muscular, percepção subjetiva de esforço e composição corporal forem também testadas. Portanto, o problema de se utilizar a correção pelo Post Hoc de Bonferroni é que o controle da taxa de erro acarreta a perda do poder estatístico. Deixamos de encontrar uma diferença genuína nos dados.

Cuidados na interpretação do valor de p após as correções pelo Post Hoc

É importante entender que o valor de p muitas vezes não estabelece medida de importância e não fornece mais informação do que isso (5).

A interpretação da importância clínica deve ser realizada pelo pesquisador ou o leitor. Há dados científicos que declínios na PAS de 10 mmHg identificado no exemplo 1 diminui em 34% os riscos de derrame em uma população na faixa etária de 60 – 69 anos de idade (6). Então, verifica-se que apesar das diferenças encontradas não serem estatisticamente significativas. Do ponto de vista clínico, o declínio na PAS após 14 semanas de treinamento foi muito importante para a amostra de idosas hipertensas estudadas. A grande mensagem aqui para o leitor é que o valor de p é um pedacinho de uma informação presente em um artigo muito limitada. Uma distorção comumente verificada nos artigos que são publicados é que o termo “diferença estatística” é utilizado ambiguamente. Ou seja, é difícil entender pelos resultados de um estudo que o autor quis se referir à diferença estatística ou a importância prática clínica dos resultados.

Por isso caros leitores e revisores de artigos científicos. Muitas vezes o ajuste de Bonferroni é um conservadorismo contraproducente a significância biológica. Nem sempre ele é necessário.

Referências

1. Ottenbacher KJ. Statistical conclusion validity. Multiple inferences in rehabilitation research. Am J Phys Med Rehabil. 1991 Dec;70(6):317-22.

2. Curtin F, Schulz P. Multiple correlations and Bonferroni's correction. Biol Psychiatry. 1998 Oct 15;44(8):775-7.

3. Perneger TV. What's wrong with Bonferroni adjustments. BMJ. 1998 Apr 18;316(7139):1236-8.

4. Rothman KJ. No adjustments are needed for multiple comparisons. Epidemiology. 1990 Jan;1(1):43-6.

5. Kalinowski P, Fidler F. Interpreting Significance: The Differences Between Statistical Significance, Effect Size, and Practical Importance. Newborn & Infant Nursing Reviews 2010;10(1):50-4.

6. Lawes CM, Bennett DA, Feigin VL, Rodgers A. Blood pressure and stroke: an overview of published reviews. Stroke. 2004 Mar;35(3):776-85.

Professor Dr. Dahan da Cunha Nascimento.

Currículo Lattes

domingo, 8 de junho de 2014

*A IMPORTÂNCIA DO CÁLCULO AMOSTRAL EM PESQUISAS DE TREINAMENTO DE FORÇA E EXERCÍCIO FÍSICO

*Esse texto foi adaptado do artigo de Beck (2013) sobre o cálculo amostral em pesquisas de treinamento de força e exercício físico.

Uma das perguntas comuns entre alunos de mestrado e doutorado é sobre a quantidade de participantes/amostra/indivíduos necessária para atingir um nível apropriado de poder no estudo.

Para isso, o entendimento do poder estatístico e o cálculo amostral são importantes componentes para o delineamento experimental.

O poder estatístico é justamente a sensibilidade de detectar se existe uma diferença real em um experimento, ou seja, é a habilidade do pesquisador rejeitar a hipótese nula (não há diferença entre os grupos) quando ela é realmente falsa.

O que pode afetar o poder de um estudo?

De acordo com Beck (2013), somente três fatores podem afetar o poder de um estudo. Dentre eles, o nível de significância, a magnitude do tratamento do efeito e o tamanho da amostra.

Desses três fatores, de acordo com Beck (2013) somente o tamanho amostral pode ser manipulado pelo pesquisador, pois o nível de significância é usualmente fixo e o tamanho do efeito é determinado pela efetividade do tratamento. Em adendo, a identificação de dois fatores normalmente determina o terceiro. Por isso, é muito comum entre os pesquisadores e alunos o uso antecipado no nível de significância e o tamanho do efeito para estimar o tamanho da amostra para um determinado poder.

Essa prática é normalmente realizada antes do estudo e é denominada a priori power analysis que não deve ser confundida com a post hoc power analysis que é realizado após os dados serem coletados e analisados e fornece o valor do poder observado para aquele estudo.

Curiosamente, existem autores que condenam o uso inapropriado do cálculo amostral após a coleta e análise dos dados para ajudar na interpretação dos dados que não obtiveram diferenças estatísticas. Além disso, existem periódicos que requerem o post hoc power analysis quando os tratamentos não apresentam diferenças significativas.

O que pode reduzir o poder de um estudo?

É importante considerar que o resultado do cálculo amostral demonstrado pelo software é apenas uma estimativa da quantidade de participantes necessária para alcançar um determinado poder (80%). UMA ESTIMATIVA!

Fatores como erros de calibração, erros na coleta e eventos não previstos podem reduzir o poder durante o estudo. Então, se o cálculo aponta para uma quantidade de 25 participantes em cada grupo. O pesquisador deve recrutar 35, já considerando a perda amostral comum em estudos com seres humanos.

Como realizar o cálculo amostral?

Como o objetivo desse blog é disseminar a informação. Clicando na referência desse texto vocês serão direcionados ao artigo do Beck (2013) que explica de forma didática como realizar o cálculo amostral para diferentes delineamentos amostrais em pesquisas de treinamento de força.

Tentem realizar os exercícios (exemplos) que ele propõe e tentem após isso realizar com os dados já coletados por vocês. Vamos praticar!

Onde eu encontro o G*Power?

Acesse esse link: http://www.gpower.hhu.de/

*Referência

BECK, Travis W. The importance of apriori sample size estimation in strength and conditioning research. Journal of Strength and Conditioning Research, v. 27, n. 8, p. 2323-2337, 2013.

*Quem tiver interesse na referência, entre em contato por favor que prontamente enviarei uma cópia em PDF do artigo.

Professor Dr. Dahan da Cunha Nascimento.

Currículo Lattes

segunda-feira, 20 de janeiro de 2014

Limitações dos Testes de Normalidade em Análises Estatísticas: Uma Orientação Para Praticantes em Ciências da Saúde e Atividade Física

Dahan da CunhaNascimento¹, Ramires Alsamir Tibana¹, Gislane Ferreira deMelo², Jonato Prestes²

1- Aluno. Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.
2- Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.

1 Introdução

Para grande parte dos estudantes em ciências da saúde e atividade física o entendimento da estatística é um processo duradouro e até mesmo amedrontador. Parte do temor associado envolve o entendimento de que a estatística está perdida em meio ás formulas matemáticas e o mais importante é que os estudantes não entendem a relevância dessa matéria e não apresentam interesse (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991). O meu caso é provavelmente típico. Fiz meu primeiro teste estatístico (ANOVA de medidas repetidas e test-t de student) quando ainda era estudante de graduação em Educação Física e ainda lembro o quanto foi difícil entender suas aplicações e conceitos. Aprender como aplicar as análises estatísticas em resultados de estudos experimentais leva tempo, maturidade e erros com o processo (como o do presente autor). Com o passar do tempo, esse processo de obter novos dados para analisar e a aprendizagem de novas técnicas estatísticas tem continuado.

Ainda invisto grande parte do meu tempo, fazendo aquilo que eu denomino de estatística aplicada as ciências da saúde e atividade física. Faço análises, dou conselhos estatísticos para estudantes e também investigo as limitações das técnicas estatísticas. No entanto, não sou estatístico. Apenas faço uso dessa valiosa ferramenta para decidir se as minhas hipóteses são confirmadas ou rejeitadas e melhor julgar e interpretar as informações encontradas nos artigos que uso para trabalhos acadêmicos e práticos.

Ainda percebo que existe uma grande falta de entendimento sobre os propósitos e aplicações das análises estatísticas e por consequência falhas nas análises de estudos publicados. Em uma revisão de literatura elegante sobre erros estatísticos em pesquisas médicas realizada por Strasak et al. (2007), verificou-se que o uso errado de testes estatísticos e inflação do erro tipo I (concluir que existe uma diferença quando na verdade não existe) são falhas e deficiências comumente encontradas. Estatísticos estipulam que cerca de 50% dos estudos apresentam erros estatísticos (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991). Um dado alarmante, pois previsões inadequadas devido ao uso inapropriado de análises estatísticas acarretam negativamente a aplicabilidade clínica e prática dos resultados e são essas pesquisas duvidosas que contribuem para a base de conhecimento que afetam a forma que o paciente/aluno/cliente é tratado e/ou diagnosticado.

Devemos indagar por que profissionais nas áreas das ciências da saúde e atividade física precisam saber estatística, o quanto sabemos, o quanto precisamos e como adquirimos conhecimentos estatísticos. Dentre as principais habilidades que um profissional da área da saúde deve ter é analisar criticamente as contribuições de estudos para suas respectivas áreas de atuação.

Assim, o propósito desse texto é de contribuir para que os praticantes em estatística nas áreas de ciências da saúde e atividade física tenham compreensão das limitações de técnicas estatísticas com ênfase nos testes de normalidade comumente utilizados, pois os mesmos nos indicam qual tipo de tratamento estatístico (testes paramétricos ou não paramétricos) será aplicado. Ademais, entender suas desvantagens, quando utilizá-las e por último criticar construtivamente o uso dessas análises.

2 Suposições para o uso de testes estatísticos

Muitos dos procedimentos estatísticos são baseados em suposições para sua aplicação (FIELD, 2009). Dentre as suposições, podemos citar a homogeneidade de variância: essa hipótese significa que as variâncias devem ser as mesmas para as diferentes populações sendo consideradas. Os grupos devem proceder de uma população que segue a lei normal: essa hipótese significa que a população é distribuída normalmente. Dados em uma escala de intervalo ou de razão: isso significa que a distância entre os pontos de sua escala deve ser igual em todas as partes ao longo da escala e independência, onde o comportamento de um participante não influencia no comportamento de outro.

3 Verificação da normalidade dos dados

A normalidade dos dados é uma das suposições frequentemente utilizadas para determinar que tipo de teste estatístico será utilizada e muitos dos procedimentos estatísticos são testes paramétricos, os quais requerem que os dados sejam retirados de uma população normalmente distribuída.

Se quisermos que nossas conclusões sejam precisas, o tipo de teste estatístico que utilizaremos deve ter uma boa representação para os dados que coletamos. Portanto, a aderência do modelo ou o grau com que o modelo estatístico representa os dados deve ser adequado.

De acordo com Field (2009), se você utiliza um teste paramétrico quando seus dados não são paramétricos (distribuição não normal), os resultados talvez não sejam apropriados. Dessa forma, as nossas conclusões quanto à aplicabilidade prática/clínica dos dados podem ser imprecisas ou até mesmo catastróficas.

4 Testes de normalidade

Dentre as opções para se verificar se uma distribuição é normal, o histograma, box plot e o gráfico de dispersão normal Q-Q plot são normalmente utilizados, no entanto, os mesmos não informam se a distribuição está próxima suficiente da normalidade (FIELD, 2009; BARROS et al., 2012). Portanto, para dar suporte às análises gráficas, métodos objetivos são necessários para determinar se uma distribuição é ou não normal.

Dentre os testes comumente utilizados, os testes de Shapiro-Wilk (SW) e Kolmogorov-Smirnov (KS) estão disponíveis em programas estatísticos como o Statistical Package for Social Sciences (SPSS), apesar de existirem na literatura mais de 40 testes de normalidade (RAZALI, NORNADIAH MOHD; WAH, YAP BEE, 2011).

5 Qual o número necessário de participantes para aplicar os testes de normalidade?

Essa foi uma das principais perguntas que me fiz até esse momento. Ouvia de professores experientes que a quantidade de participantes era o que determinava a aplicabilidade do teste e seu poder. Dentre as respostas dadas a mim o ponto de corte de 50 era o número que eu apoiava acriticamente até o presente momento.

Dentre as recomendações que me foram apresentadas, o teste de SW deveria ser aplicado para uma amostra igual ou inferior a 50 e que acima disso o KS era a melhor opção.

Recentemente, entendi que a sugestão dos professores tinha uma fundamentação teórica. O ponto de corte (N = 50) foi citado recentemente no livro do professor Barros et al. (2012), mas sem a referência original dessa citação. No entanto, outros pontos de corte como 30 (sem referência) também encontrei (BISQUERRA, RAFAEL; SARRIERA, JORGE CATELLÁ; MARTINEZ, FRANCESC, 2007) e me foram sugeridos. Diante do exposto, fiquei com dúvidas quanto à aplicação destes testes já que o número de participantes influencia sua aplicabilidade. Para melhor entender o que será comentado posteriormente, preciso comentar brevemente sobre hipóteses e erros.

Quando realizamos uma pesquisa, normalmente criamos hipóteses que podem ser confirmadas ou rejeitadas. A probabilidade que calculamos nos testes estatísticos é baseada na suposição de que não existe relacionamento ou diferenças entre os tratamentos ou variáveis. Essa suposição é a hipótese nula (H₀). Se a hipótese da pesquisa estabelece que haverá relacionamento ou diferenças entre os tratamentos (normalmente chamada de hipótese experimental ou alternativa), então a hipótese nula estabelece que não haverá relacionamento ou diferença (DANCEY, CHRISTINE P; REIDY, JOHN, 2011). Contudo, podemos ter cometido dois tipos de erros em nossas previsões. Para H₀concluímos que não houve diferenças entre os tratamos quando na verdade houve (erro tipo II) ou concluímos que houve diferenças entre os tratamentos quando na verdade não houve (erro tipo I). Agora sim posso comentar sobre outro termo importante que é poder ou potência de um teste.

O poder significa encontrar uma diferença quando na verdade ela existe e extrapolando essa definição para os testes de normalidade, se utilizar o teste inadequado para uma quantidade de observações (exemplo: N < 30) insuficientes, concluímos que os dados são normalmente distribuídos quando na verdade não são (erro tipo I).

Então, incorporo nesse texto informações sobre o melhor teste de normalidade e qual o número de observações (N) necessárias para que os testes de normalidade apresentem poder ou potência suficientemente confiáveis para identificar se um dado é normalmente distribuído quando na verdade ele é realmente normalmente distribuído.

O teste de SW foi originalmente feito para amostras entre 3 a 50 (SHAPIRO, SS; Wilk, MB, 1965), no entanto, eles não estenderam o teste para amostras acima de 50 e estudos entre 2003 a 2011 encontraram resultados conflitantes e preocupantes.

O mais recente, feito por Ahad et al (2011), verificaram a sensibilidade (capacidade do teste de identificar corretamente dados não normalmente ou normalmente distribuídos) do teste de SW, KS, Anderson-Darling (AD) e Cramer-von (CV) em dados propositalmente não normalmente distribuídos em diferentes tamanhos amostrais (39 a 201), e concluíram que o teste de SW é melhor que o KS, pois rejeita a hipótese nula de normalidade em amostras pequenas (N maior ou igual a 39) enquanto que o teste de KS necessita de uma amostra maior (N maior ou igual a 77) para indicar que um dado não é normal. Recomendando-se aos praticantes em estatística o uso do SW por apresentar maior sensibilidade e demonstrando a deficiência do teste de KS e entre outros analisados.

Razali e Wah (2011) corroboraram com os resultados anteriormente citados. Nesse estudo eles compararam os poderes de testes de normalidade SW, KS, AD e Lilliefors (LF). Os poderes dos testes analisados nesse estudo variaram de acordo com o tamanho da amostra (10 a 2000). Para uma amostra menor ou igual a 50 com um nível de significância de 5%, para todos os testes de normalidade analisados o poder ficou abaixo de 40%. Somente para uma amostra mínima de 50 o teste de SW quando comparado com os demais atingiu poder suficiente de indicar que um dado não é normal. Considerou-se então o teste de SW como o teste de maior potência para a análise de normalidade quando comparado com os demais. Além disso, alertou aos praticantes de estatísticas para tomarem cuidado ao utilizarem esses testes de normalidade em amostras com número baixo de observações (N) por causa da falta de poder e inflação do erro tipo I. Outro estudo corrobora com as mesmas conclusões de que o teste de SW tem maior potência na análise da normalidade dos dados e que sua utilização é fortemente recomendada (MENDES, MEHMET; PALA, AKIN, 2003)

Com isso, sugiro através dos achados que praticantes em estatística não dependam somente de gráficos para a análise da normalidade dos dados, os mesmos devem ser combinados com testes objetivos de normalidade, como o de SW, mas alerto quando for aplicado esse tipo de teste em uma amostra pequena, pois o poder e inflação do erro tipo I diminui e aumenta, respectivamente.

6 Conclusão

Portanto, com base na leitura desses artigos. Convido a reflexão de praticantes em estatística e estudantes nas áreas de ciências da saúde e atividade física sobre os cuidados na aplicabilidade dos testes de normalidade em amostras pequenas.

O uso cuidadoso e correto da estatística nas áreas de ciências da saúde e atividade física é de grande importância e devem ser repensadas continuamente. Principalmente por considerar a realidade da maioria dos pesquisadores onde tanto a pesquisa e a análise dos dados são feitas por conta própria. Por isso, o conhecimento profundo ou adequado da estatística é desejável, especialmente se assistência estatística não está disponível (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991).

É difícil demonstrar evidências de que o uso errado da estatística tem consequências adversas na prática clínica. Contudo, devemos lembrar que erros estatísticos podem acarretar conclusões incorretas na vida e no tratamento de alunos/pacientes/clientes. Com isso, praticantes de estatística tem a obrigação social de realizar seu trabalho de forma profissional e de maneira ética e o trabalho conjunto de estatísticos e praticantes nas áreas de ciências da saúde e atividade física tem que ser continuamente reforçado.

Nós precisamos dos estatísticos, assim como nós precisamos estar cientes dos problemas relacionados à estatística.

7 Agradecimentos

O primeiro autor agradece o apoio primordial de sua família (Rita de Cassia, Luana Cunha e Nicolas Cunha) nesse importante ciclo. Sem eles, isso não seria possível.

8 Conflitos de interesse

Os autores declaram não haver conflitos de interesse.

Referências

AHAD, Nor Aishah et al. Sensitivity of normality tests to non-normal data. Sains Malaysiana, Malaysia, v. 46, n. 6, p. 637-641, 2011.

ALTMAN, Douglas G; BLAND, J Martin. Improving doctors’ understanding of statistics. Journal of the Royal Statistical Society. Series A (Statistics in Society), United States, v. 154, n. 2, p. 223-267.

BARROS, Mauro VG et al. Análise de dados em Saúde. Londrina – PR: Midiograf, 2012.

BISQUERRA, Rafael; SARRIERA, Jorge Castellá; MARTÍNEZ, Francesc. Introdução á estatística: enfoque informático com o pacote estatístico SPSS. Porto Alegre: Artmed, 2004.

DANCEY, Christine P; REIDY, John. Statistics without maths for psychology. 5th ed. England, Pearson Education Limited; 2011.

FIELD, Andy. Descobrindo a estatística usando o SPSS. São Paulo – SP: Artmed, 2009.

MENDES, Mehmet; PALA, Akin. Type I error rate and power of three normality tests. Pakistan Journal of Information Technology, Asian, v. 2, n. 2, p. 135-139, 2003.

RAZALI, Nornadiah Mohd; WAH, Yap Bee. Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling Tests. Journal of Statistical Modeling and Analytics, Malaysia, v. 2, n. 1. P. 21-23, 2011.

SHAPIRO, S S; Wilk, M B. An analysis of variance test for normality (complete samples). Bimetrika, United States, v. 52, n. 3/3, p. 591-611, 1965.

STRASAK, Alexandre M et al. Statistical errors in medical research – a review of common pitfalls. Swiss Med Wkly, Switzerland, v. 137, n. 3-4. P. 44-9, 2007.

Professor Dr. Dahan da Cunha Nascimento.

Currículo Lattes

Métodos de Pesquisa em Educação Física e Ciência do Exercício

MENU

sexta-feira, 26 de setembro de 2014

AJUSTES DE BONFERRONI: CONSERVADORISMO CONTRAPRODUCENTE A SIGNIFICÂNCIA BIOLÓGICA

domingo, 8 de junho de 2014

*A IMPORTÂNCIA DO CÁLCULO AMOSTRAL EM PESQUISAS DE TREINAMENTO DE FORÇA E EXERCÍCIO FÍSICO

segunda-feira, 20 de janeiro de 2014

Limitações dos Testes de Normalidade em Análises Estatísticas: Uma Orientação Para Praticantes em Ciências da Saúde e Atividade Física

Translate

Minha lista de blogs