Dahan da CunhaNascimento1, Ramires Alsamir Tibana1, Gislane Ferreira deMelo2, Jonato Prestes2
1- Aluno. Programa de
Pós-Graduação Stricto Sensu, Faculdade
de Educação Física, Universidade Católica de Brasília
(UCB) – Brasília (DF) – Brasil.
2- Professor (a). Programa de Pós-Graduação Stricto Sensu, Faculdade de Educação Física, Universidade Católica
de Brasília (UCB) – Brasília (DF) – Brasil.
1
Introdução
Para
grande parte dos estudantes em ciências da saúde e atividade física o
entendimento da estatística é um processo duradouro e até mesmo amedrontador. Parte
do temor associado envolve o entendimento de que a estatística está perdida em
meio ás formulas matemáticas e o mais importante é que os estudantes não entendem
a relevância dessa matéria e não apresentam interesse (ALTMAN, DOUGLAS G;
BLAND, J MARTIN, 1991). O meu caso é provavelmente típico. Fiz meu primeiro
teste estatístico (ANOVA de medidas
repetidas e test-t de student) quando
ainda era estudante de graduação em Educação Física e ainda lembro o quanto foi
difícil entender suas aplicações e conceitos. Aprender como aplicar as análises
estatísticas em resultados de estudos experimentais leva tempo, maturidade e
erros com o processo (como o do presente autor). Com o passar do tempo, esse
processo de obter novos dados para analisar e a aprendizagem de novas técnicas estatísticas
tem continuado.
Ainda
invisto grande parte do meu tempo, fazendo aquilo que eu denomino de
estatística aplicada as ciências da saúde e atividade física. Faço análises,
dou conselhos estatísticos para estudantes e também investigo as limitações das
técnicas estatísticas. No entanto, não sou estatístico. Apenas faço uso dessa
valiosa ferramenta para decidir se as minhas hipóteses são confirmadas ou
rejeitadas e melhor julgar e interpretar as informações encontradas nos artigos
que uso para trabalhos acadêmicos e práticos.
Ainda
percebo que existe uma grande falta de entendimento sobre os propósitos e aplicações
das análises estatísticas e por consequência falhas nas análises de estudos
publicados. Em uma revisão de literatura elegante sobre erros estatísticos em
pesquisas médicas realizada por Strasak et
al. (2007), verificou-se que o uso errado de testes estatísticos e inflação
do erro tipo I (concluir que existe uma diferença quando na verdade não existe)
são falhas e deficiências comumente encontradas. Estatísticos estipulam que
cerca de 50% dos estudos apresentam erros estatísticos (ALTMAN, DOUGLAS G;
BLAND, J MARTIN, 1991). Um dado alarmante, pois previsões inadequadas devido ao
uso inapropriado de análises estatísticas acarretam negativamente a
aplicabilidade clínica e prática dos resultados e são essas pesquisas duvidosas
que contribuem para a base de conhecimento que afetam a forma que o paciente/aluno/cliente
é tratado e/ou diagnosticado.
Devemos
indagar por que profissionais nas áreas das ciências da saúde e atividade
física precisam saber estatística, o quanto sabemos, o quanto precisamos e como
adquirimos conhecimentos estatísticos. Dentre as principais habilidades que um
profissional da área da saúde deve ter é analisar criticamente as contribuições
de estudos para suas respectivas áreas de atuação.
Assim,
o propósito desse texto é de contribuir para que os praticantes em estatística
nas áreas de ciências da saúde e atividade física tenham compreensão das
limitações de técnicas estatísticas com ênfase nos testes de normalidade
comumente utilizados, pois os mesmos nos indicam qual tipo de tratamento
estatístico (testes paramétricos ou não paramétricos) será aplicado. Ademais, entender
suas desvantagens, quando utilizá-las e por último criticar construtivamente o
uso dessas análises.
2
Suposições para o uso de testes estatísticos
Muitos
dos procedimentos estatísticos são baseados em suposições para sua aplicação
(FIELD, 2009). Dentre as suposições, podemos citar a homogeneidade de variância:
essa hipótese significa que as variâncias devem ser as mesmas para as
diferentes populações sendo consideradas. Os grupos devem proceder de uma população
que segue a lei normal: essa hipótese significa que a população é distribuída
normalmente. Dados em uma escala de intervalo ou de razão: isso significa que a
distância entre os pontos de sua escala deve ser igual em todas as partes ao
longo da escala e independência, onde o comportamento de um participante não
influencia no comportamento de outro.
3
Verificação da normalidade dos dados
A normalidade dos dados é uma das
suposições frequentemente utilizadas para determinar que tipo de teste
estatístico será utilizada e muitos dos procedimentos estatísticos são testes
paramétricos, os quais requerem que os dados sejam retirados de uma população
normalmente distribuída.
Se
quisermos que nossas conclusões sejam precisas, o tipo de teste estatístico que
utilizaremos deve ter uma boa representação para os dados que coletamos.
Portanto, a aderência do modelo ou o grau com que o modelo estatístico
representa os dados deve ser adequado.
De
acordo com Field (2009), se você utiliza um teste paramétrico quando seus dados
não são paramétricos (distribuição não normal), os resultados talvez não sejam
apropriados. Dessa forma, as nossas conclusões quanto à aplicabilidade
prática/clínica dos dados podem ser imprecisas ou até mesmo catastróficas.
4
Testes de normalidade
Dentre
as opções para se verificar se uma distribuição é normal, o histograma, box plot e o gráfico de dispersão normal Q-Q plot são normalmente
utilizados, no entanto, os mesmos não informam se a distribuição está próxima
suficiente da normalidade (FIELD, 2009; BARROS et al., 2012). Portanto, para dar suporte às análises gráficas,
métodos objetivos são necessários para determinar se uma distribuição é ou não
normal.
Dentre os testes comumente
utilizados, os testes de Shapiro-Wilk
(SW) e Kolmogorov-Smirnov (KS) estão
disponíveis em programas estatísticos como o Statistical Package for Social Sciences (SPSS), apesar de existirem
na literatura mais de 40 testes de normalidade (RAZALI, NORNADIAH MOHD; WAH,
YAP BEE, 2011).
5
Qual o número necessário de participantes para aplicar os testes de normalidade?
Essa
foi uma das principais perguntas que me fiz até esse momento. Ouvia de
professores experientes que a quantidade de participantes era o que determinava a
aplicabilidade do teste e seu poder. Dentre as respostas dadas a mim o ponto de
corte de 50 era o número que eu apoiava acriticamente até o presente momento.
Dentre as recomendações que me foram
apresentadas, o teste de SW deveria ser aplicado para uma amostra igual ou
inferior a 50 e que acima disso o KS era a melhor opção.
Recentemente, entendi que a sugestão
dos professores tinha uma fundamentação teórica. O ponto de corte (N = 50) foi
citado recentemente no livro do professor Barros et al. (2012), mas sem a referência original dessa citação. No entanto,
outros pontos de corte como 30 (sem referência) também encontrei (BISQUERRA,
RAFAEL; SARRIERA, JORGE CATELLÁ; MARTINEZ, FRANCESC, 2007) e me foram sugeridos.
Diante do exposto, fiquei com dúvidas quanto à aplicação destes testes já que o
número de participantes influencia sua aplicabilidade. Para melhor entender o
que será comentado posteriormente, preciso comentar brevemente sobre hipóteses
e erros.
Quando realizamos uma pesquisa, normalmente
criamos hipóteses que podem ser confirmadas ou rejeitadas. A probabilidade que
calculamos nos testes estatísticos é baseada na suposição de que não existe
relacionamento ou diferenças entre os tratamentos ou variáveis. Essa suposição
é a hipótese nula (H0). Se a hipótese da pesquisa estabelece que
haverá relacionamento ou diferenças entre os tratamentos (normalmente chamada
de hipótese experimental ou alternativa), então a hipótese nula estabelece que
não haverá relacionamento ou diferença (DANCEY,
CHRISTINE P; REIDY, JOHN, 2011). Contudo, podemos ter cometido dois
tipos de erros em nossas previsões. Para H0 concluímos que não houve
diferenças entre os tratamos quando na verdade houve (erro tipo II) ou
concluímos que houve diferenças entre os tratamentos quando na verdade não
houve (erro tipo I). Agora sim posso comentar sobre outro termo importante que
é poder ou potência de um teste.
O poder significa encontrar uma
diferença quando na verdade ela existe e extrapolando essa definição para os
testes de normalidade, se utilizar o teste inadequado para uma quantidade de
observações (exemplo: N < 30) insuficientes, concluímos que os dados são
normalmente distribuídos quando na verdade não são (erro tipo I).
Então, incorporo nesse texto
informações sobre o melhor teste de normalidade e qual o número de observações (N)
necessárias para que os testes de normalidade apresentem poder ou potência
suficientemente confiáveis para identificar se um dado é normalmente
distribuído quando na verdade ele é realmente normalmente distribuído.
O teste de SW foi originalmente feito
para amostras entre 3 a 50 (SHAPIRO, SS; Wilk, MB, 1965), no entanto, eles não
estenderam o teste para amostras acima de 50 e estudos entre 2003 a 2011
encontraram resultados conflitantes e preocupantes.
O mais recente, feito por Ahad et al (2011), verificaram a sensibilidade
(capacidade do teste de identificar corretamente dados não normalmente ou
normalmente distribuídos) do teste de SW, KS, Anderson-Darling (AD) e Cramer-von (CV) em dados propositalmente
não normalmente distribuídos em diferentes tamanhos amostrais (39 a 201), e
concluíram que o teste de SW é melhor que o KS, pois rejeita a hipótese nula de
normalidade em amostras pequenas (N maior ou igual a 39) enquanto que o teste
de KS necessita de uma amostra maior (N maior ou igual a 77) para indicar que
um dado não é normal. Recomendando-se aos praticantes em estatística o uso do
SW por apresentar maior sensibilidade e demonstrando a deficiência do teste de
KS e entre outros analisados.
Razali e Wah (2011) corroboraram com
os resultados anteriormente citados. Nesse estudo eles compararam os poderes de
testes de normalidade SW, KS, AD e Lilliefors
(LF). Os poderes dos testes analisados nesse estudo variaram de acordo com o
tamanho da amostra (10 a 2000). Para uma amostra menor ou igual a 50 com um
nível de significância de 5%, para todos os testes de normalidade analisados o
poder ficou abaixo de 40%. Somente para uma amostra mínima de 50 o teste de SW
quando comparado com os demais atingiu poder suficiente de indicar que um dado
não é normal. Considerou-se então o teste de SW como o teste de maior potência
para a análise de normalidade quando comparado com os demais. Além disso,
alertou aos praticantes de estatísticas para tomarem cuidado ao utilizarem
esses testes de normalidade em amostras com número baixo de observações (N) por
causa da falta de poder e inflação do erro tipo I. Outro estudo corrobora com
as mesmas conclusões de que o teste de SW tem maior potência na análise da
normalidade dos dados e que sua utilização é fortemente recomendada (MENDES,
MEHMET; PALA, AKIN, 2003)
Com isso, sugiro através dos achados
que praticantes em estatística não dependam somente de gráficos para a análise
da normalidade dos dados, os mesmos devem ser combinados com testes objetivos
de normalidade, como o de SW, mas alerto quando for aplicado esse tipo de teste
em uma amostra pequena, pois o poder e inflação do erro tipo I diminui e
aumenta, respectivamente.
6
Conclusão
Portanto,
com base na leitura desses artigos. Convido a reflexão de praticantes em
estatística e estudantes nas áreas de ciências da saúde e atividade física sobre
os cuidados na aplicabilidade dos testes de normalidade em amostras pequenas.
O uso cuidadoso e correto da
estatística nas áreas de ciências da saúde e atividade física é de grande
importância e devem ser repensadas continuamente. Principalmente por considerar
a realidade da maioria dos pesquisadores onde tanto a pesquisa e a análise dos
dados são feitas por conta própria. Por isso, o conhecimento profundo ou
adequado da estatística é desejável, especialmente se assistência estatística
não está disponível (ALTMAN, DOUGLAS G; BLAND, J MARTIN, 1991).
É difícil demonstrar evidências de
que o uso errado da estatística tem consequências adversas na prática clínica.
Contudo, devemos lembrar que erros estatísticos podem acarretar conclusões
incorretas na vida e no tratamento de alunos/pacientes/clientes. Com isso, praticantes
de estatística tem a obrigação social de realizar seu trabalho de forma profissional
e de maneira ética e o trabalho conjunto de estatísticos e praticantes nas
áreas de ciências da saúde e atividade física tem que ser continuamente
reforçado.
Nós precisamos dos estatísticos,
assim como nós precisamos estar cientes dos problemas relacionados à
estatística.
7
Agradecimentos
O primeiro autor
agradece o apoio primordial de sua família (Rita de Cassia, Luana Cunha e
Nicolas Cunha) nesse importante ciclo. Sem eles, isso não seria possível.
8 Conflitos de interesse
Os autores
declaram não haver conflitos de interesse.
Referências
AHAD, Nor Aishah et al. Sensitivity of normality tests to
non-normal data. Sains Malaysiana, Malaysia, v. 46, n. 6, p. 637-641, 2011.
ALTMAN, Douglas G; BLAND, J Martin. Improving doctors’ understanding of
statistics. Journal of the Royal Statistical Society. Series A (Statistics in
Society), United States, v. 154, n. 2, p. 223-267.
BARROS, Mauro VG et al.
Análise de dados em Saúde. Londrina – PR: Midiograf, 2012.
BISQUERRA, Rafael;
SARRIERA, Jorge Castellá; MARTÍNEZ, Francesc. Introdução á estatística: enfoque
informático com o pacote estatístico SPSS. Porto Alegre: Artmed, 2004.
DANCEY, Christine P; REIDY, John.
Statistics without maths for psychology. 5th ed. England, Pearson Education
Limited; 2011.
FIELD, Andy. Descobrindo a estatística
usando o SPSS. São Paulo – SP: Artmed, 2009.
MENDES, Mehmet; PALA, Akin. Type I error rate and power of three
normality tests. Pakistan Journal of Information Technology, Asian, v. 2, n. 2,
p. 135-139, 2003.
RAZALI, Nornadiah Mohd; WAH, Yap Bee. Power comparisons of Shapiro-Wilk,
Kolmogorov-Smirnov, Lilliefors and Anderson-Darling Tests. Journal of Statistical Modeling
and Analytics, Malaysia, v. 2, n. 1. P. 21-23, 2011.
SHAPIRO, S S; Wilk, M B. An analysis of variance test for normality
(complete samples). Bimetrika, United States, v. 52, n. 3/3, p. 591-611, 1965.
STRASAK, Alexandre M et
al. Statistical
errors in medical research – a review of common pitfalls. Swiss
Med Wkly, Switzerland, v. 137, n. 3-4. P. 44-9, 2007.
Professor Dr. Dahan da Cunha Nascimento.