segunda-feira, 20 de janeiro de 2014

Limitações dos Testes de Normalidade em Análises Estatísticas: Uma Orientação Para Praticantes em Ciências da Saúde e Atividade Física


Dahan da CunhaNascimento1, Ramires Alsamir Tibana1, Gislane Ferreira deMelo2, Jonato Prestes2

1- Aluno. Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) Brasil.
2- Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica de Brasília (UCB) – Brasília (DF) – Brasil.

1 Introdução
            Para grande parte dos estudantes em ciências da saúde e atividade física o entendimento da estatística é um processo duradouro e até mesmo amedrontador. Parte do temor associado envolve o entendimento de que a estatística está perdida em meio ás formulas matemáticas e o mais importante é que os estudantes não entendem a relevância dessa matéria e não apresentam interesse (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991). O meu caso é provavelmente típico. Fiz meu primeiro teste estatístico (ANOVA de medidas repetidas e test-t de student) quando ainda era estudante de graduação em Educação Física e ainda lembro o quanto foi difícil entender suas aplicações e conceitos. Aprender como aplicar as análises estatísticas em resultados de estudos experimentais leva tempo, maturidade e erros com o processo (como o do presente autor). Com o passar do tempo, esse processo de obter novos dados para analisar e a aprendizagem de novas técnicas estatísticas tem continuado.
Ainda invisto grande parte do meu tempo, fazendo aquilo que eu denomino de estatística aplicada as ciências da saúde e atividade física. Faço análises, dou conselhos estatísticos para estudantes e também investigo as limitações das técnicas estatísticas. No entanto, não sou estatístico. Apenas faço uso dessa valiosa ferramenta para decidir se as minhas hipóteses são confirmadas ou rejeitadas e melhor julgar e interpretar as informações encontradas nos artigos que uso para trabalhos acadêmicos e práticos.
Ainda percebo que existe uma grande falta de entendimento sobre os propósitos e aplicações das análises estatísticas e por consequência falhas nas análises de estudos publicados. Em uma revisão de literatura elegante sobre erros estatísticos em pesquisas médicas realizada por Strasak et al. (2007), verificou-se que o uso errado de testes estatísticos e inflação do erro tipo I (concluir que existe uma diferença quando na verdade não existe) são falhas e deficiências comumente encontradas. Estatísticos estipulam que cerca de 50% dos estudos apresentam erros estatísticos (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991). Um dado alarmante, pois previsões inadequadas devido ao uso inapropriado de análises estatísticas acarretam negativamente a aplicabilidade clínica e prática dos resultados e são essas pesquisas duvidosas que contribuem para a base de conhecimento que afetam a forma que o paciente/aluno/cliente é tratado e/ou diagnosticado.
Devemos indagar por que profissionais nas áreas das ciências da saúde e atividade física precisam saber estatística, o quanto sabemos, o quanto precisamos e como adquirimos conhecimentos estatísticos. Dentre as principais habilidades que um profissional da área da saúde deve ter é analisar criticamente as contribuições de estudos para suas respectivas áreas de atuação.
Assim, o propósito desse texto é de contribuir para que os praticantes em estatística nas áreas de ciências da saúde e atividade física tenham compreensão das limitações de técnicas estatísticas com ênfase nos testes de normalidade comumente utilizados, pois os mesmos nos indicam qual tipo de tratamento estatístico (testes paramétricos ou não paramétricos) será aplicado. Ademais, entender suas desvantagens, quando utilizá-las e por último criticar construtivamente o uso dessas análises.
2 Suposições para o uso de testes estatísticos
            Muitos dos procedimentos estatísticos são baseados em suposições para sua aplicação (FIELD, 2009). Dentre as suposições, podemos citar a homogeneidade de variância: essa hipótese significa que as variâncias devem ser as mesmas para as diferentes populações sendo consideradas. Os grupos devem proceder de uma população que segue a lei normal: essa hipótese significa que a população é distribuída normalmente. Dados em uma escala de intervalo ou de razão: isso significa que a distância entre os pontos de sua escala deve ser igual em todas as partes ao longo da escala e independência, onde o comportamento de um participante não influencia no comportamento de outro.
3 Verificação da normalidade dos dados
            A normalidade dos dados é uma das suposições frequentemente utilizadas para determinar que tipo de teste estatístico será utilizada e muitos dos procedimentos estatísticos são testes paramétricos, os quais requerem que os dados sejam retirados de uma população normalmente distribuída.
Se quisermos que nossas conclusões sejam precisas, o tipo de teste estatístico que utilizaremos deve ter uma boa representação para os dados que coletamos. Portanto, a aderência do modelo ou o grau com que o modelo estatístico representa os dados deve ser adequado.
De acordo com Field (2009), se você utiliza um teste paramétrico quando seus dados não são paramétricos (distribuição não normal), os resultados talvez não sejam apropriados. Dessa forma, as nossas conclusões quanto à aplicabilidade prática/clínica dos dados podem ser imprecisas ou até mesmo catastróficas.
4 Testes de normalidade
            Dentre as opções para se verificar se uma distribuição é normal, o histograma, box plot e o gráfico de dispersão normal Q-Q plot são normalmente utilizados, no entanto, os mesmos não informam se a distribuição está próxima suficiente da normalidade (FIELD, 2009; BARROS et al., 2012). Portanto, para dar suporte às análises gráficas, métodos objetivos são necessários para determinar se uma distribuição é ou não normal.
            Dentre os testes comumente utilizados, os testes de Shapiro-Wilk (SW) e Kolmogorov-Smirnov (KS) estão disponíveis em programas estatísticos como o Statistical Package for Social Sciences (SPSS), apesar de existirem na literatura mais de 40 testes de normalidade (RAZALI, NORNADIAH MOHD; WAH, YAP BEE, 2011).
5 Qual o número necessário de participantes para aplicar os testes de normalidade?
            Essa foi uma das principais perguntas que me fiz até esse momento. Ouvia de professores experientes que a quantidade de participantes era o que determinava a aplicabilidade do teste e seu poder. Dentre as respostas dadas a mim o ponto de corte de 50 era o número que eu apoiava acriticamente até o presente momento.
            Dentre as recomendações que me foram apresentadas, o teste de SW deveria ser aplicado para uma amostra igual ou inferior a 50 e que acima disso o KS era a melhor opção.
            Recentemente, entendi que a sugestão dos professores tinha uma fundamentação teórica. O ponto de corte (N = 50) foi citado recentemente no livro do professor Barros et al. (2012), mas sem a referência original dessa citação. No entanto, outros pontos de corte como 30 (sem referência) também encontrei (BISQUERRA, RAFAEL; SARRIERA, JORGE CATELLÁ; MARTINEZ, FRANCESC, 2007) e me foram sugeridos. Diante do exposto, fiquei com dúvidas quanto à aplicação destes testes já que o número de participantes influencia sua aplicabilidade. Para melhor entender o que será comentado posteriormente, preciso comentar brevemente sobre hipóteses e erros.
            Quando realizamos uma pesquisa, normalmente criamos hipóteses que podem ser confirmadas ou rejeitadas. A probabilidade que calculamos nos testes estatísticos é baseada na suposição de que não existe relacionamento ou diferenças entre os tratamentos ou variáveis. Essa suposição é a hipótese nula (H0). Se a hipótese da pesquisa estabelece que haverá relacionamento ou diferenças entre os tratamentos (normalmente chamada de hipótese experimental ou alternativa), então a hipótese nula estabelece que não haverá relacionamento ou diferença (DANCEY, CHRISTINE P; REIDY, JOHN, 2011). Contudo, podemos ter cometido dois tipos de erros em nossas previsões. Para H0 concluímos que não houve diferenças entre os tratamos quando na verdade houve (erro tipo II) ou concluímos que houve diferenças entre os tratamentos quando na verdade não houve (erro tipo I). Agora sim posso comentar sobre outro termo importante que é poder ou potência de um teste.
            O poder significa encontrar uma diferença quando na verdade ela existe e extrapolando essa definição para os testes de normalidade, se utilizar o teste inadequado para uma quantidade de observações (exemplo: N < 30) insuficientes, concluímos que os dados são normalmente distribuídos quando na verdade não são (erro tipo I).
            Então, incorporo nesse texto informações sobre o melhor teste de normalidade e qual o número de observações (N) necessárias para que os testes de normalidade apresentem poder ou potência suficientemente confiáveis para identificar se um dado é normalmente distribuído quando na verdade ele é realmente normalmente distribuído.
            O teste de SW foi originalmente feito para amostras entre 3 a 50 (SHAPIRO, SS; Wilk, MB, 1965), no entanto, eles não estenderam o teste para amostras acima de 50 e estudos entre 2003 a 2011 encontraram resultados conflitantes e preocupantes.
            O mais recente, feito por Ahad et al (2011), verificaram a sensibilidade (capacidade do teste de identificar corretamente dados não normalmente ou normalmente distribuídos) do teste de SW, KS, Anderson-Darling (AD) e Cramer-von (CV) em dados propositalmente não normalmente distribuídos em diferentes tamanhos amostrais (39 a 201), e concluíram que o teste de SW é melhor que o KS, pois rejeita a hipótese nula de normalidade em amostras pequenas (N maior ou igual a 39) enquanto que o teste de KS necessita de uma amostra maior (N maior ou igual a 77) para indicar que um dado não é normal. Recomendando-se aos praticantes em estatística o uso do SW por apresentar maior sensibilidade e demonstrando a deficiência do teste de KS e entre outros analisados.
            Razali e Wah (2011) corroboraram com os resultados anteriormente citados. Nesse estudo eles compararam os poderes de testes de normalidade SW, KS, AD e Lilliefors (LF). Os poderes dos testes analisados nesse estudo variaram de acordo com o tamanho da amostra (10 a 2000). Para uma amostra menor ou igual a 50 com um nível de significância de 5%, para todos os testes de normalidade analisados o poder ficou abaixo de 40%. Somente para uma amostra mínima de 50 o teste de SW quando comparado com os demais atingiu poder suficiente de indicar que um dado não é normal. Considerou-se então o teste de SW como o teste de maior potência para a análise de normalidade quando comparado com os demais. Além disso, alertou aos praticantes de estatísticas para tomarem cuidado ao utilizarem esses testes de normalidade em amostras com número baixo de observações (N) por causa da falta de poder e inflação do erro tipo I. Outro estudo corrobora com as mesmas conclusões de que o teste de SW tem maior potência na análise da normalidade dos dados e que sua utilização é fortemente recomendada (MENDES, MEHMET; PALA, AKIN, 2003)
            Com isso, sugiro através dos achados que praticantes em estatística não dependam somente de gráficos para a análise da normalidade dos dados, os mesmos devem ser combinados com testes objetivos de normalidade, como o de SW, mas alerto quando for aplicado esse tipo de teste em uma amostra pequena, pois o poder e inflação do erro tipo I diminui e aumenta, respectivamente.
6 Conclusão
Portanto, com base na leitura desses artigos. Convido a reflexão de praticantes em estatística e estudantes nas áreas de ciências da saúde e atividade física sobre os cuidados na aplicabilidade dos testes de normalidade em amostras pequenas.
            O uso cuidadoso e correto da estatística nas áreas de ciências da saúde e atividade física é de grande importância e devem ser repensadas continuamente. Principalmente por considerar a realidade da maioria dos pesquisadores onde tanto a pesquisa e a análise dos dados são feitas por conta própria. Por isso, o conhecimento profundo ou adequado da estatística é desejável, especialmente se assistência estatística não está disponível (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991).
            É difícil demonstrar evidências de que o uso errado da estatística tem consequências adversas na prática clínica. Contudo, devemos lembrar que erros estatísticos podem acarretar conclusões incorretas na vida e no tratamento de alunos/pacientes/clientes. Com isso, praticantes de estatística tem a obrigação social de realizar seu trabalho de forma profissional e de maneira ética e o trabalho conjunto de estatísticos e praticantes nas áreas de ciências da saúde e atividade física tem que ser continuamente reforçado.
            Nós precisamos dos estatísticos, assim como nós precisamos estar cientes dos problemas relacionados à estatística.
7 Agradecimentos
            O primeiro autor agradece o apoio primordial de sua família (Rita de Cassia, Luana Cunha e Nicolas Cunha) nesse importante ciclo. Sem eles, isso não seria possível.
8 Conflitos de interesse
            Os autores declaram não haver conflitos de interesse.
Referências
AHAD, Nor Aishah et al. Sensitivity of normality tests to non-normal data. Sains Malaysiana, Malaysia, v. 46, n. 6, p. 637-641, 2011.
ALTMAN, Douglas G; BLAND, J Martin. Improving doctors’ understanding of statistics. Journal of the Royal Statistical Society. Series A (Statistics in Society), United States, v. 154, n. 2, p. 223-267.
BARROS, Mauro VG et al. Análise de dados em Saúde. Londrina – PR: Midiograf, 2012.
BISQUERRA, Rafael; SARRIERA, Jorge Castellá; MARTÍNEZ, Francesc. Introdução á estatística: enfoque informático com o pacote estatístico SPSS. Porto Alegre: Artmed, 2004.
DANCEY, Christine P; REIDY, John. Statistics without maths for psychology. 5th ed. England, Pearson Education Limited; 2011.
FIELD, Andy. Descobrindo a estatística usando o SPSS. São Paulo – SP: Artmed, 2009.
MENDES, Mehmet; PALA, Akin. Type I error rate and power of three normality tests. Pakistan Journal of Information Technology, Asian, v. 2, n. 2, p. 135-139, 2003.
RAZALI, Nornadiah Mohd; WAH, Yap Bee. Power comparisons of Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors and Anderson-Darling Tests. Journal of Statistical Modeling and Analytics, Malaysia, v. 2, n. 1. P. 21-23, 2011.
SHAPIRO, S S; Wilk, M B. An analysis of variance test for normality (complete samples). Bimetrika, United States, v. 52, n. 3/3, p. 591-611, 1965.
STRASAK, Alexandre M et al. Statistical errors in medical research – a review of common pitfalls. Swiss Med Wkly, Switzerland, v. 137, n. 3-4. P. 44-9, 2007.

Professor Dr. Dahan da Cunha Nascimento.