Baixe o app para aproveitar ainda mais
Prévia do material em texto
i ii Bioestatística sem segredos iii Annibal Muniz Silvany Neto Médico, Epidemiologista e Mestre em Saúde Comunitária. Professor Adjunto do Departamento de Medicina Preventiva e Social da Faculdade de Medicina da Bahia da Universidade Federal da Bahia. 1a edição Edição do autor Salvador – Bahia 2008 Bioestatística sem segredos iv Copyleft ⊗ 2008 pela humanidade. Nenhum direito reservado. Qualquer parte deste livro pode ser reproduzida ou transcrita, sob qualquer forma ou por qualquer meio – eletrônico, mecânico, por fotocópia, por gravação – sem necessidade de prévia autorização, para fins não comerciais, desde que o autor e a fonte sejam citados e esta nota seja incluída. Escrito e impresso no Brasil. S586 Silvany Neto, Annibal Muniz. Bioestatística sem segredos / Annibal Muniz Silvany Neto. – Salvador, 2008. 321p.: il. ISBN 978-85-907970-0-5 1.Biometria. 2.Bioestatística. I.Título. CDU – 57.087.1 Descrição desta publicação: Formato 21,6 x 27,9 cm; Fontes “arial”, “arial black” “symbol” e “times new roman”; Miolo em papel sulfite 90 g/m2; Criação da capa Purê Design; Capa em papel supremo 250 g/m2; Fotolito e impressão da capa Cian e acabamento Finish; Tiragem 100 exemplares. v � Aos meus pais, ao meu filho e a todas as outras pessoas virtuosas � vi � APRESENTAÇÃO � O livro Bioestatística Sem Segredos do Prof. Annibal Muniz Silvany Neto é dirigido aos estudantes da área de Saúde. O estilo em forma de diálogo com os leitores é uma tentativa de motivá-los e também de vencer a resistência que muitos deles trazem para o estudo e a discussão de conceitos estatísticos. O livro é uma ótima referência para um primeiro curso de Bioestatística, pela riqueza de detalhes com que os tópicos básicos de Estatística Descritiva, Modelos Probabilísticos e Inferência Estatística são tratados, pelo estilo atraente e agradável e pela cuidadosa apresentação e discussão dos conceitos, introduzidos através de exemplos e aplicações oriundos, na maioria, da Epidemiologia, área de atuação do Prof. Neto. Pesquisadores da área também podem se beneficiar com a leitura, principalmente dos capítulos sobre amostragem e cálculo do tamanho da amostra. Trata-se, assim, de um livro que deverá contribuir para a difusão do ensino da Bioestatística e que ajudará na formação dos futuros pesquisadores na área de Saúde. Salvador, 25/11/2007 Nelson Fernandes de Oliveira vii � PREFÁCIO � Ao longo da minha vida profissional estudei Estatística em vários livros-texto e artigos em revistas especializadas. Em todos senti a falta de muitas explicações necessárias ao entendimento dos assuntos abordados. Acho que isso tem provocado muita resistência, confusão, impaciência e desânimo, levando muitos(as) estudantes a perderem a motivação para aprender esta disciplina. Isso ocorre, em minha opinião, em todos os níveis de formação, e o problema tem sido “resolvido”, na prática, da seguinte maneira: quando as pessoas precisam obter créditos obrigatórios na disciplina “Estatística (ou Bioestatística)” para os cursos que estão fazendo, desistem logo de aprender e relaxam e, mais adiante, quando precisarem utilizar procedimentos estatísticos, aqueles que tiverem condições financeiras para tanto, pagam a um estatístico para executar essa tarefa. Isso significa que a maioria das pessoas vai passando de um nível a outro de sua formação, sem acrescentar novos conhecimentos e capacitações em Bioestatística. Não defendo que cada pessoa se torne um estatístico profissional, mas que vá aumentando sua capacitação nessa área de modo a poder dialogar eficientemente com o estatístico. Esse diálogo é essencial para que sejam evitadas incorreções graves na aplicação da Estatística, por falhas na comunicação entre o “pesquisador” e o “estatístico”. O desejo de fazer um livro de Bioestatística que explicasse mais cada tópico abordado, tornando mais fácil o seu entendimento e aprendizagem, foi a motivação principal para que eu escrevesse este livro. Todo seu conteúdo é apresentado através de um diálogo entre o autor e o(a) leitor(a). Espero ter conseguido tornar sua leitura uma tarefa estimulante, interessante e proveitosa. Este é, portanto, um livro de Bioestatística básica, com a pretensão de pegar na mão do(a) estudante e ajudá-lo(a) a “abrir as portas” da Bioestatística. Outra ambição foi a de ser um educador além de professor. Isso se reflete em breves comentários com minhas opiniões sobre a natureza humana, o modo de organização das sociedades humanas, e na sugestão de leituras fora da área da Bioestatística. É evidente que os(as) leitores(as) podem discordar completamente das posições por mim defendidas, mas minha intenção não foi de modo algum “fazer a cabeça” de ninguém, e sim evitar uma postura alienada neste livro, falando somente de Bioestatística, como se o uso desta ferramenta fosse uma atividade neutra nas sociedades onde vivemos. Por isso, este livro não deve ser considerado como apenas “técnico”. Do ponto de vista econômico, uma característica deste livro é ter sido feito de modo completamente artesanal. Isso, por um lado, me permitiu uma liberdade total de expressão e de definição da extensão e nível de profundidade dos capítulos. Em momento algum fiquei preocupado com o número de páginas do livro, porque sabia que, para explicar melhor os assuntos, era inevitável “gastar” mais tempo dialogando com o(a) estudante. Além disso, consegui não ceder os direitos autorais deste livro. Imagine o absurdo: você escreve um livro; é, portanto, o(a) autor(a) do mesmo; mas, se quiser obter financiamento para a edição do livro, a probabilidade de ter que ceder seus direitos autorais é muito grande. Existe absurdo maior do que cedermos um direito que, por definição, é “incedível”? Algumas editoras resolvem essa questão requerendo que o autor lhes ceda o direito de publicação e não o de autoria, mas isso não soluciona um outro problema que é a repartição desigual do valor da venda dos livros, ficando uma proporção mínima desse valor com o autor. Não me submeti também a essa exploração do meu trabalho. O caráter artesanal foi, então, importante para me livrar da tirania das leis de mercado, que certamente interfeririam nas características do livro. Mas, em viii decorrência desse seu caráter, o livro deve conter “erros” gramaticais, lingüísticos, de normalização e de editoração, porque não foi revisado por profissionais dessas áreas, já que esses serviços são caríssimos. Coloquei no livro apenas as referências bibliográficas essenciais ao atendimento dos objetivos propostos. Mostrar erudição estatística não era um desses objetivos. Além disso, os temas abordados já são consagrados no âmbito da Estatística Clássica. As referências são apresentadas no momento em que são referidas, para evitar que o(a) leitor(a) tenha de se dirigir ao final dos capítulos ou do livro para consultá-las. A revisão dos fundamentos estatísticos que norteiam toda a apresentação dos assuntos foi feita por Nelson Fernandes de Oliveira, professor de Estatística aposentado do Instituto de Matemática da Universidade Federal da Bahia. Seu esmero e competência nessa tarefa conferiram ao livro uma qualidade técnica que, sem ele, nãoteria sido obtida. Agradeço a todos(as) que me incentivaram a escrever. Ao meu filho que me ajudou decisivamente com as demonstrações algébricas, essenciais para explicar melhor vários assuntos. Ao meu pai pelo entusiasmo que demonstrou quando soube que eu estava escrevendo um livro, e pelas várias sugestões que ele ainda teve tempo de me dar para melhorá-lo. Aos Estudantes de Medicina Alba Cristina Sousa Oliveira, Ana Cláudia Oliveira Silva, Átila Cerveira Lueska, Carlos Eduardo Cerqueira Rolim, Dalton Willy Santos Oliveira, Lucas Santos Argolo, Luciana Santos Pimentel, Rafaela Sousa dos Santos, Rodrigo Santos Matos e Sandra Sousa Santos, e aos Professores Marco Antônio Vasconcelos Rêgo e Meirelayne Borges Duarte, pela revisão cuidadosa de vários capítulos. Ao Professor José Romélio Cordeiro e Aquino, pela revisão do texto e por sua amizade e incentivo. Sou imensamente grato à minha mulher e seu filho pela paciência que tiveram com o envolvimento de tempo e energia que me foi exigido para enfrentar esse desafio. À minha mãe e meus irmãos por poder contar sempre com seu carinho e atenção. Fica claro, então, que o livro resultou de um trabalho coletivo no qual, para minha alegria, um grupo de pessoas em cooperação e sem a necessidade de competir com outros, se dedicou a um projeto, sem nenhum interesse além da demonstração mútua de amizade, generosidade, carinho ou respeito. Espero ter conseguido realizar os objetivos propostos e desejo a todos(as) uma boa jornada ao lerem este livro. Salvador, janeiro de 2.008. Annibal M. Silvany Neto. ix � ÍNDICE � CAPÍTULO 1.................................................................................................................................................1 Quais as diferenças entre Estatística Descritiva, Analítica e Inferencial?...............................................2 Quais as técnicas estatísticas mais utilizadas?.......................................................................................3 O que as denominações estatística paramétrica e não-paramétrica significam?...................................7 Como surgiu a Estatística Moderna?......................................................................................................8 E o que é Bioestatística?........................................................................................................................9 CAPÍTULO 2...............................................................................................................................................13 O que são variáveis?.............................................................................................................................14 Como classificar as variáveis?..............................................................................................................14 Quanto à natureza qualitativa ou quantitativa..................................................................................14 Quanto à posição no quadro de hipóteses da pesquisa..................................................................15 Quanto à sua expressão em valores contínuos ou não...................................................................18 Quanto ao número de categorias.....................................................................................................19 Quanto à fixação prévia das freqüências nas categorias.................................................................19 Quanto à individualização da informação.........................................................................................20 Quanto à modalidade de escala.......................................................................................................20 CAPÍTULO 3...............................................................................................................................................23 O que é amostragem e por que realizá-la?...........................................................................................24 Quais os tipos de amostragens mais utilizados?..................................................................................26 Amostragem aleatória simples.........................................................................................................26 Amostragem aleatória sistemática...................................................................................................26 Amostragem aleatória por conglomerados......................................................................................27 Amostragem aleatória estratificada e proporcional..........................................................................27 Amostragem por conveniência.........................................................................................................29 Amostragem de voluntários..............................................................................................................29 CAPÍTULO 4...............................................................................................................................................31 Quais os dados necessários para utilizarmos a Bioestatística?.............................................................32 Quais as técnicas mais aplicadas nas primeiras etapas de descrição de dados quantitativos?............34 Organização dos dados....................................................................................................................35 Cálculo de freqüências.....................................................................................................................36 CAPÍTULO 5...............................................................................................................................................41 O que são medidas de tendência central e quais as suas aplicações?.................................................42 Moda.................................................................................................................................................42 Média aritmética................................................................................................................................44 Média ponderada..............................................................................................................................46 Mediana.............................................................................................................................................47 Em quais circunstâncias deveremos usar a moda, a média ou a mediana?.........................................52 x CAPÍTULO 6...............................................................................................................................................57 O que são medidas de dispersão e quais as suas aplicações?............................................................58 Amplitude.........................................................................................................................................59 Desvio médio...................................................................................................................................60 Variância..........................................................................................................................................62 Desvio-padrão..................................................................................................................................65 Coeficiente de variação....................................................................................................................66 CAPÍTULO 7...............................................................................................................................................69Quais as principais medidas de posição?..............................................................................................70 Porcentil...........................................................................................................................................71 Quartil...............................................................................................................................................72 Como os quartis são calculados?..........................................................................................................73 Quais as principais aplicações dos porcentis?......................................................................................78 Amplitude interquartil.............................................................................................................................80 CAPÍTULO 8...............................................................................................................................................85 Quadro...................................................................................................................................................86 Tabela....................................................................................................................................................86 Gráfico...................................................................................................................................................93 Cartograma......................................................................................................................................93 Diagrama.........................................................................................................................................93 De setores....................................................................................................................................93 De barras.....................................................................................................................................95 De barras de erro.........................................................................................................................98 Histograma.................................................................................................................................100 Polígono de freqüências.............................................................................................................102 De talo e folha............................................................................................................................104 De pontos...................................................................................................................................105 De linhas....................................................................................................................................105 De dispersão..............................................................................................................................107 De caixa.....................................................................................................................................109 De linhas de afastamento..........................................................................................................113 CAPÍTULO 9.............................................................................................................................................117 O que são distribuições de freqüências e distribuições probabilísticas e quais as suas aplicações?.118 Distribuição Binomial...........................................................................................................................122 Distribuição de Poisson.......................................................................................................................122 Distribuições reais...............................................................................................................................124 Distribuição normal..............................................................................................................................125 Definição estatística de normalidade...................................................................................................125 Outros critérios para definição de normalidade...................................................................................127 Propriedades matemáticas da distribuição normal..............................................................................127 Distribuição normal padrão..................................................................................................................130 Obtenção de áreas sob a curva normal padrão...................................................................................133 xi CAPÍTULO 10...........................................................................................................................................139 PRIMEIRA PARTE..............................................................................................................................140 Por que precisamos fazer inferência estatística?...........................................................................140 O que é afinal inferência estatística?..............................................................................................142 O que é inferência não-estatística?................................................................................................142 Como se distribuem as freqüências dos resultados de diferentes amostras?...............................143 Erro-padrão....................................................................................................................................147 Teorema central do limite...............................................................................................................149 SEGUNDA PARTE..............................................................................................................................150 Como a inferência estatística é feita?............................................................................................150 Teste de hipóteses estatísticas / Inferência sobre uma média / Teste z...................................150 Erros envolvidos na inferência estatística......................................................................................167 TERCEIRA PARTE.............................................................................................................................177 O que é um intervalo de confiança?..............................................................................................177 CAPÍTULO 11...........................................................................................................................................185 Quando devemos aplicar o teste z ou o t?.........................................................................................186 Como realizamos o teste t?................................................................................................................193 Cálculo de intervalo de confiança usando valor de T.........................................................................195 CAPÍTULO 12...........................................................................................................................................201 Quando a inferência estatística é sobre duas médias e não sobre apenas uma?.............................202 Teste z ..........................................................................................................................................206Cálculo de intervalo de confiança utilizando a distribuição normal padrão...................................210 Teste da razão de variâncias.........................................................................................................212 Teste t............................................................................................................................................217 Cálculo de intervalo de confiança usando valor de T....................................................................222 Teste t’..........................................................................................................................................223 Cálculo de intervalo de confiança usando valor de T ’.................................................................226 CAPÍTULO 13...........................................................................................................................................231 Qual o teste a ser aplicado quando as amostras não forem independentes?....................................232 Teste t para amostras não independentes..........................................................................................233 Cálculo de intervalo de confiança para amostras não independentes................................................239 xii CAPÍTULO 14...........................................................................................................................................243 E se estivermos comparando proporções e não médias?..................................................................244 Por que podemos usar o teste z também para inferência sobre proporções?....................................244 Como fazemos inferência sobre uma proporção utilizando o teste z?................................................247 Como fazemos inferência sobre duas proporções utilizando o teste z?............................................ 252 CAPÍTULO 15...........................................................................................................................................261 Quais os fundamentos estatísticos para os cálculos do tamanho da amostra?.................................262 Como calculamos o tamanho da amostra para estimar uma média?.................................................262 Como calculamos o tamanho da amostra para estimar uma proporção?..........................................269 CAPÍTULO 16...........................................................................................................................................273 Qual a aplicação mais comum do teste qui-quadrado? Por que esse teste recebe essa denominação?.......................................................................................................274 Como realizamos o teste qui-quadrado para avaliar a independência entre variáveis?.....................274 Existem outras aplicações para o teste qui-quadrado?.......................................................................287 CAPÍTULO 17...........................................................................................................................................291 Como realizamos o teste exato de Fisher?.........................................................................................292 Por que este teste é chamado de exato?............................................................................................294 APÊNDICE 1...........................................................................................................................................301 APÊNDICE 2...........................................................................................................................................313 APÊNDICE 3...........................................................................................................................................317 1 CAPÍTULO 1 � Quais as diferenças entre Estatística Descritiva, Analítica e Inferencial? � Quais as técnicas estatísticas mais utilizadas? � O que são contagens? � O que são medições? � Como escolher a técnica estatística mais adequada a cada situação? � O que significam as denominações “estatística paramétrica” e “não-paramétrica”? � Como surgiu a Estatística Moderna? � O que é Bioestatística? � Em que etapas da pesquisa epidemiológica utilizamos a Estatística? � Em que etapas e em quais tipos de estudos epidemiológicos utilizamos a Estatística? � Como saber qual a técnica estatística mais adequada a cada situação? � O que é Estatística Bayesiana? � É possível gerar conhecimento científico sem a Estatística? 2 ─ Quais as diferenças entre Estatística Descritiva, Analítica e Inferencial? ─ No âmbito deste livro dividiremos a Estatística em três partes, de acordo com a finalidade de cada uma. Se o seu objetivo for descrever quantitativamente uma determinada realidade você deverá utilizar as técnicas da Estatística Descritiva. Se quiser analisar quantitativamente essa realidade, ou seja, investigar as relações entre os fatores descritos, usará os procedimentos da Estatística Analítica. Mas, se o seu objetivo for inferir, isto é, avaliar se os resultados obtidos em uma amostra aleatória podem ser generalizados para a população da qual a amostra foi retirada, utilizará as técnicas da Estatística Inferencial. A Estatística pode ser dividida em três partes: Estatística Descritiva Descreve Caracterização dos indivíduos estudados Estatística Analítica Analisa Investigação das relações entre as características estudadas Estatística Inferencial Infere Avaliação da possibilidade de generalização Se essa divisão da Estatística ainda não ficou clara para você, tenha paciência e aguarde um pouco, porque com certeza isso ficará mais claro ao longo deste livro. ─ Mas, se essas partes da Estatística são mesmo diferentes, de que consiste afinal a Estatística Analítica? Esta não é a mesma Estatística Inferencial que usa os famosos testes de significância estatística? ─ Muitas vezes a Estatística Analítica e a Estatística Inferencial são consideradas como uma só modalidade, mas achamos essa equiparação inadequada, pois podemos utilizar as técnicas da primeira sem o uso de procedimentos inferenciais, e vice-versa. A primeira situação ocorrerá, p. ex., quando estivermos considerando dados obtidos de toda a população ou de amostras não-aleatórias. Nessas situações não faz sentido avaliarmos se o resultado obtido é estatisticamente significante (Estatística Inferencial), mas seria inteiramente necessário utilizarmos indicadores quantitativos para a análise desses dados (Estatística Analítica). Mais adiante, no capítulo 10 (páginas 142 e 143), explicaremos o por quê de não fazer sentido aplicarmos testes de significância estatística quando investigamos toda uma população ou amostra não- aleatória dessa população. Outra maneira de lhe responder é com um exemplo: Suponha que você esteja realizando um estudo transversal1 para investigar uma possível associação 1 Estudo transversal: estudo epidemiológico no qual as informações sobre a(s) exposição(ões) de interesse e sobre a(s) doença(s) estudada(s) são coletadas simultaneamente, de modo a obtermos a situação de saúde existente em um certo 3 entre dieta e câncer da boca. Na descrição (caracterização) dos indivíduos estudados você utilizaria procedimentos da Estatística Descritiva,verificando quantos são homens ou mulheres, quantos negros ou brancos, etc.; na avaliação da existência, direção e magnitude da associação de interesse, lançaria mão das técnicas da Estatística Analítica, comparando, p. ex., a proporção de doentes em indivíduos com um tipo de dieta à proporção de doentes naqueles com outro tipo de dieta e, supondo que o seu estudo tenha sido realizado em uma amostra e que o método de amostragem tenha sido aleatório, aplicaria os testes de significância da Estatística Inferencial. Estes testes serviriam para verificar se os resultados encontrados no estudo realizado seriam válidos para representar os verdadeiros resultados da população de onde a única amostra que você estudou foi retirada. Informações populacionais quase sempre não são conhecidas, pois demandam muito tempo e trabalho, sendo muito caro obtê-las. Geralmente, então, estimamos informações populacionais com base em resultados obtidos em uma ou em poucas amostras, através dos procedimentos da Estatística Inferencial. Assim, poderíamos descrever os indivíduos estudados segundo o sexo, a raça, o estado civil, etc., analisar a associação entre dieta e câncer da boca calculando a prevalência deste câncer nos indivíduos que consomem uma determinada dieta e comparando-a à prevalência deste mesmo câncer naqueles que consomem um outro tipo de dieta, obtendo, p. ex., uma razão entre estas prevalências (RP), e poderíamos também aplicar um teste de significância estatística (nesse caso o teste qui-quadrado, que será abordado no capítulo 16) ou calcular um intervalo de confiança (capítulo 10), para avaliarmos se seria possível inferir para a população inteira os resultados obtidos na única amostra ou nas poucas amostras retiradas dessa população. ─ Quais as técnicas estatísticas mais utilizadas? ─ Antes de lhe respondermos, será importante destacarmos que os dados a partir dos quais toda a Estatística é produzida consistem de contagens e/ou medições. ─ Contagens, medições? ─ Sim. Contagens, como sua denominação indica, são números que resultam de contagens feitas pelos estatísticos nos indivíduos estudados. Podemos contar quantos eram do sexo masculino ou do feminino, da raça negra ou branca, etc. Essas contagens nos permitirão descrever, analisar e/ou inferir, a depender dos objetivos da nossa pesquisa. As medições, como também sua denominação indica, são medidas de interesse para o estudo, feitas nos indivíduos estudados. Medidas da altura, da glicemia, da concentração de chumbo no sangue, etc., são exemplos desse tipo de informação quantitativa. Essas medições também nos permitirão descrever, analisar e/ou inferir. No capítulo 4 (páginas 32 a 34) explicaremos mais detalhadamente as contagens e medições. Agora, vamos listar abaixo as principais técnicas das Estatísticas Descritiva, Analítica e Inferencial, momento em uma determinada população. Se desejar revise esse tema em: Medronho RA, Carvalho DM, Bloch KV, Luiz RR, Werneck GL, editores. Epidemiologia. São Paulo (SP): Atheneu; 2002. 4 com o intuito, por enquanto, de lhe dar uma idéia dos procedimentos que poderão ser utilizados em suas pesquisas, destacando os que serão abordados neste livro e que são de aplicação mais constante. Não se preocupe com o grande número de técnicas que verá, pois, nos esforçaremos para explicá-las da forma mais clara possível. Não se preocupe também com o grande número de técnicas que não verá neste livro. Muitas dessas não serão necessárias em sua vida profissional, e outras, você aprenderá ao longo de outros níveis de formação, como Cursos de Especialização, Mestrado, Doutorado e Pós-doutorado, ou quando for necessário aplicá-las, durante a realização de suas pesquisas. TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA DESCRITIVA • Cálculo de freqüências simples, simples acumulada, relativa e relativa acumulada • Cálculo de medidas de tendência central (moda, média aritmética, média ponderada, mediana) • Cálculo de medidas de dispersão (amplitude, desvio médio, variância, desvio-padrão, coeficiente de variação) • Cálculo de medidas de posição (porcentis) • Elaboração de tabelas univariáveis (veja a definição de variável na página 14) • Elaboração de gráficos (cartograma, histograma, diagrama de talo e folha, diagrama de caixa, diagrama de setores, diagrama de barras, etc.) • Avaliação da forma como as freqüências de uma variável se distribuem Se você quiser detalhar mais e/ou tornar sua descrição mais robusta (mais fidedigna, mais válida), poderá utilizar um conjunto de procedimentos denominados análise exploratória de dados. Essas técnicas são abordadas em livros específicos e não serão abordadas neste livro. A análise exploratória de dados também inclui a elaboração de diagramas. Apenas dois deles, o diagrama de talo e folha, e o de caixa serão aqui apresentados. Se você estiver interessado na análise exploratória de dados sugerimos que estude esse tema nos livros Exploratory data analysis, de John W. Tukey, Reading (MA): Addison-Wesley; 1976 e Understanding robust and exploratory data analysis, de David C. Hoaglin, Frederick Mosteller e John W. Tukey, editores, New York (NY): John Wiley; 1983. Depois de descrever os indivíduos estudados, se você também tiver o objetivo de analisar seus resultados, poderá aplicar algumas das técnicas relacionadas abaixo: TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA ANALÍTICA • Elaboração de diagramas (os mesmos da Estatística Descritiva, porém considerando mais de uma variável; diagrama de dispersão, p. ex.) • Elaboração de tabelas de contingência bivariáveis (com duas variáveis) ou multivariáveis (com mais de duas variáveis) • Cálculo de medidas de associação entre variáveis (razão ou diferença entre prevalências; entre incidências ou risco relativo ou atribuível; entre chances; coeficientes de correlação (de Pearson, de Spearman, parcial, parcial múltiplo, etc.); coeficientes de regressão) • Análise estratificada • Análise multivariável 5 Em cada uma das técnicas estatísticas acima mencionadas calculamos um ou mais indicadores quantitativos que nos ajudam a avaliar como e com que força duas ou mais variáveis estão associadas. Esses indicadores constituem os procedimentos da Estatística Analítica. Em seguida, são feitos testes apropriados de significância estatística (que já são procedimentos da Estatística Inferencial), para verificar se os valores obtidos para as estatísticas descritivas ou analíticas no estudo realizado são válidos para a população. Veja uma listagem das principais técnicas de inferência estatística no quadro abaixo: TÉCNICAS MAIS UTILIZADAS NA ESTATÍSTICA INFERENCIAL • Teste z para uma ou duas médias • Cálculo do índice capa (Teste z) • Teste t para uma ou duas médias • Análise de regressão linear (Teste F ou Teste z) • Teste t para amostras emparelhadas • Teste exato de Fisher • Teste z para uma ou duas proporções • Teste do sinal • Teste qui-quadrado para duas ou mais proporções • Teste de Wilcoxon • Teste qui-quadrado de Mantel e Haenszel • Teste da mediana • Teste para uma variância • Teste de Mann-Whitney • Teste F para duas variâncias • Teste de Kruskal-Wallis • Análise de variância (Teste F) • Teste de Friedman • Análise de correlação intraclasse (Teste F) • Análise de correlação de Spearman • Análise de correlação de Pearson (Teste t) • Teste de McNemar • Cálculo do alfa de Cronbach (Teste F) • Elaboração de diagrama de barra de erro Várias das técnicas mencionadas serão explicadas neste livro e, como já foi prometido, faremos o maior esforço possível para que você compreenda cada uma e seja capaz de utilizá-las facilmente quando precisar. Na descrição dos resultados consideramos apenas uma variável de cadavez. Na análise estatística temos que utilizar duas variáveis (análise bivariável) ou mais de duas (análise estratificada e análise multivariável). A inferência estatística é realizada tanto para uma variável isoladamente, quanto para duas ou mais. Note no quadro acima que a elaboração de um diagrama foi citada como técnica de inferência estatística. Do mesmo modo que os diagramas podem ser usados na descrição e análise quantitativa de dados, alguns podem também ser utilizados para inferência. Isto será explicado no capítulo sobre elaboração de diagramas (capítulo 8, páginas 98 a 100). O quadro apresentado na próxima página mostra as técnicas que não serão abordadas neste livro. 6 TÉCNICAS ESTATÍSTICAS NÃO ABORDADAS • A grande maioria das técnicas da “análise exploratória de dados” • Cálculo de medidas de associação (risco relativo, razão de chances, etc.) • Cálculo do índice de concordância Capa • Cálculo do alfa de Cronbach • Teste qui-quadrado de Mantel e Haenszel • Teste para uma variância • Análise de variância / Análise de correlação intraclasse • Teste do sinal • Teste de Wilcoxon • Teste da mediana • Teste de Mann-Whitney • Teste de Kruskal-Wallis • Teste de Friedman • Teste de McNemar • Análise de correlação de Spearman • Análise de correlação de Pearson • Análise de regressão linear • Análise de regressão logística • Análise de regressão de Cox • Análise de regressão de Weibull • Análise de regressão de Poisson • Análise de regressão binomial negativa • Análise de regressão log-linear • Análise de regressão hierárquica • Análise discriminante • Análise de variância multinomial (MANOVA) • Análise de correlação de Kendall • Análise de contingência • Análise de correlação canônica • Análise de correlação parcial múltipla • Análise de escala multidimensional • Análise de componentes principais • Análise de fator • Análise de correspondência • Análise de homogeneidade • Análise de agrupamento (“cluster analysis”) • Análise por redes neurais artificiais Existem ainda outras técnicas estatísticas que, por serem menos utilizadas, não foram mencionadas no quadro acima. Quando for necessário você poderá estudá-las e aplicá-las. ─ Mas, há uma “montanha” de técnicas que não serão abordadas! Vou continuar sabendo poucas técnicas estatísticas! ─ Tenha paciência! Este livro foi “bolado” para servir como livro-texto em cursos de Estatística Básica. É um primeiro degrau. É impossível aprender todas as técnicas existentes em um espaço de tempo curto. Essa é uma tarefa para ser feita ao longo de toda sua vida profissional. Além disto, não se esqueça de que você não precisará utilizar todas essas técnicas em suas pesquisas. O importante neste momento é que você se capacite a empregar as técnicas mais simples e de uso mais freqüente. 7 ─ O que as denominações estatística paramétrica e não-paramétrica significam? ─ Boa pergunta! Para você entender isso será necessário explicarmos o que é uma distribuição de freqüências ou uma distribuição de probabilidades. Se estudarmos uma amostra, que é uma parte de uma população, e coletarmos, para cada indivíduo dessa amostra, informação sobre uma determinada característica, a idade, p.ex., podemos contar quantas vezes cada valor de idade apareceu nessa amostra. Para avaliarmos como essas freqüências de valores de idade se distribuíram nessa amostra, elaboramos um diagrama de freqüências, também chamado de distribuição de freqüências. Na ordenada dessa distribuição apresentamos as freqüências com que os valores de idade ocorreram naquela amostra e na abscissa os valores de idade. Muitos dos fenômenos estudados por nós na área biomédica apresentam baixas freqüências dos valores mais baixos e também dos mais altos, e altas freqüências dos valores mais intermediários, conformando um diagrama de distribuição de freqüências semelhante ao desenhado abaixo: As partes mais altas da distribuição representam os valores mais freqüentes e as partes mais baixas os valores menos freqüentes, já que na ordenada representamos as freqüências. Quanto mais alta a coluna, mais freqüentes os valores correspondentes de idade contidos na abscissa, e vice-versa. Com base na teoria estatística, se o número de indivíduos tender para infinito, será usado um modelo ou equação matemática para representar essa distribuição, como mostramos a seguir: Nesse diagrama, na abscissa estão representados os diversos infinitos valores de uma característica de interesse, a idade, p.ex., denotada por X, e na ordenada valores de uma função matemática de X. Você Distribuição das freqüências de idade. f (x) 8 verá no capítulo 9, que a distribuição acima recebe a denominação de distribuição normal, e que as áreas entre essa curva e a abscissa equivalem às probabilidades dos valores de idade ocorrerem naquela população infinita. Por isso, esta e outras distribuições recebem também a denominação genérica de distribuições de probabilidades. No capítulo 10 (páginas 143 a 150), explicaremos que, muitas vezes, vamos poder assumir que a distribuição de uma determinada característica na população estudada é normal. Sendo assim, poderemos utilizar essa distribuição como modelo para verificar se os resultados obtidos em uma parte (amostra) dessa população são estatisticamente iguais ou diferentes dos valores que porventura obteríamos, se tivéssemos estudado toda a população e não apenas uma parte da mesma. Por enquanto, nossa intenção é destacar que podemos utilizar distribuições de probabilidades para fazermos inferência estatística. Quando, ao fazermos essa inferência, tivermos de assumir, na população de onde o grupo investigado foi retirado, que a característica estudada tem uma determinada distribuição de probabilidades previamente conhecida, classificaremos o procedimento estatístico como paramétrico, porque utilizaremos os parâmetros dessa distribuição já conhecida. Quando, p. ex., pudermos assumir previamente que a distribuição na população é do tipo normal, a média dessa distribuição, µ, será um dos parâmetros considerados para realizarmos inferência estatística. Quando não necessitarmos assumir previamente um determinado formato da distribuição na população para realizarmos o procedimento estatístico, este será denominado não-paramétrico. Como nenhuma distribuição já conhecida é utilizada, esse tipo de técnica estatística é também chamado de “livre de distribuição”. Outra razão para usarmos um procedimento não-paramétrico é a natureza da característica estudada. Se esta é medida em valores que podem ser postos em ordem crescente ou decrescente, mas seus valores não compreendem todos os possíveis valores em uma escala quantitativa contínua, não poderemos calcular sua média e, conseqüentemente, a distribuição normal não poderá ser utilizada para fazermos inferência sobre essa característica. Isto será explicado nas páginas 54 e 55. ─ Como surgiu a Estatística Moderna? ─ Fazendo uma abordagem bem sucinta, podemos começar destacando que, desde os seus primórdios, os seres humanos sentiram a necessidade de e, efetivamente, fizeram contagens e medições. E, à medida que a matemática se desenvolveu, a quantificação de eventos de interesse foi também evoluindo. Mas, a Estatística Moderna é relativamente recente. Surgiu na transição entre o feudalismo e o capitalismo, em um período denominado de mercantilismo. Durante a criação dos Estados Absolutistas na Europa, intensificou-se a necessidade de se saber quantos indivíduos nasciam ou morriam, quantos eram sadios ou doentes. ─ Por quê? ─ Porque naquele período eram freqüentes as guerras de conquista e, conseqüentemente, as de defesa de território, e então, foi se tornando cada vez mais necessário saber-se mais precisamente com quantas pessoas o Estado poderia contar para conquistar novos territórios ou para defender-se de agressores. A denominaçãoEstatística é, por isso, derivada da palavra “Estado” e abrangia, originalmente, o conhecimento resultante de contagens e/ou medições de eventos de interesse do Estado. 9 Se quiser ler sobre a história da Estatística, recomendamos o livro de Stigler SM. The history of Statistics. The measurement of uncertainty before 1900. Cambridge (MA): The Belknap Press of Harvard University Press; 1986. ─ E o que é Bioestatística? ─ Como você já sabe, chamamos de Bioestatística o ramo da Estatística aplicado ao agrupamento metódico e ao estudo de fenômenos biológicos passíveis de avaliação quantitativa. ─ Utilizaremos a Bioestatística apenas na descrição, análise e inferência dos resultados obtidos no nosso estudo? ─ Não. Se considerarmos resumidamente as etapas de uma pesquisa epidemiológica, veremos que a Estatística pode ser usada na maioria das mesmas. Em termos gerais, uma investigação desta natureza comporta as seguintes etapas: • Definição do tema • Planejamento do estudo • Coleta dos dados • Digitação e processamento • Descrição, análise e interpretação dos resultados • Avaliação crítica do estudo • Redação • Apresentação / Divulgação A Estatística será utilizada em todas essas etapas, e em algumas terá um papel indispensável. Na definição do tema, ajudando-nos a avaliar onde existem lacunas no conhecimento devido a falhas na análise dos dados de estudos realizados anteriormente; no planejamento, orientando-nos na seleção dos indivíduos e fatores a serem estudados, na escolha das técnicas adequadas à descrição e análise desses fatores e à generalização dos resultados; esse planejamento será importante para uma realização correta do estudo, estando aí incluídos a coleta, a digitação e o processamento dos dados; na descrição, análise e interpretação, orientando-nos no uso correto das técnicas estatísticas escolhidas durante o planejamento; na avaliação crítica do estudo, fornecendo-nos elementos para um melhor julgamento sobre nosso próprio trabalho, permitindo-nos identificar aspectos positivos e negativos do mesmo, verificando sua validade científica; e na redação, apresentação e divulgação dos resultados, auxiliando-nos com procedimentos práticos, como a elaboração de tabelas e diagramas. ─ Em que tipos de estudos epidemiológicos poderemos usar técnicas estatísticas? ─ Relembrando, listamos abaixo os sete tipos básicos de estudos epidemiológicos: • De prevalência • Caso-controle • De incidência • De coorte • De agregados • Experimental • Transversal 10 Em todos esses tipos a Estatística terá uma contribuição fundamental para que o estudo seja bem planejado e produza resultados cientificamente válidos. ─ Como saber qual a técnica estatística mais adequada a cada situação? ─ Para escolher corretamente a técnica a ser utilizada é fundamental que você leve em conta o tipo de estudo epidemiológico que realizará e a natureza estatística dos fatores a serem investigados. No próximo capítulo veremos como esses fatores, chamados de variáveis, são classificados e, ao longo dos demais capítulos, ficará claro qual(is) técnica(s) será(ão) a(s) mais apropriada(s) em função dos tipos de variáveis envolvidas. ─ Reconheço o esforço que vocês estão fazendo para motivar-me a estudar bioestatística, mas há algo que não conseguirei superar que é o entendimento de fórmulas matemáticas. ─ Foi bom você ter mencionado isso. Existem fórmulas matemáticas mais simples e outras mais complexas. Você com certeza conseguirá entender as mais simples com a ajuda de uma explicação clara e isto nós tentaremos fazer sempre. Quanto às mais complexas, nossa opinião é que simplesmente não é possível olhar para elas e entendê-las. ─ Então não somos obrigados a entender fórmulas mais complexas? ─ Não. Essas fórmulas resultaram de várias etapas de manipulação algébrica. É praticamente impossível olharmos para uma fórmula complexa e querermos entendê-la. O máximo que um professor poderá exigir de você será entender o desenvolvimento algébrico e/ou a demonstração empírica dessas fórmulas. Sempre que julgarmos necessário, faremos essas demonstrações ao longo deste livro. Achamos que muitas pessoas não gostam de Matemática e, portanto, de Estatística, porque se sentem na obrigação de olhar para uma fórmula complexa e entendê-la. Isto é um completo absurdo. Não se cobre isto no decorrer deste livro. Combinado? ─ Ouvi falar em uma Estatística Bayesiana. O que isso significa? ─ Alguns estatísticos propuseram uma outra maneira de se fazer inferência estatística, diferente da que apresentaremos neste livro. Esta outra maneira é chamada de bayesiana porque utiliza o famoso teorema de Bayes, assim denominado em homenagem ao seu formulador, o matemático e religioso inglês Thomas Bayes (1702-1761). Se desejar saber como a inferência bayesiana é realizada, sugiro que estude as páginas 20-22, 27, 197-199, 220, 221, e 336 do livro Rothman KJ e Greenland S, editores. Modern epidemiology. 2a ed. Philadelphia (PA): Lippincott Williams e Wilkins; 1998. Como em qualquer área do pensamento humano, esses dois distintos métodos de inferência, o da estatística bayesiana e o da estatística clássica (sendo este o que será utilizado neste livro), despertou intensa discussão, com posições apaixonadas a favor ou contra uma ou outra. Em nossa opinião, não devemos opor um método ao outro, pois ambos se fundamentam em argumentos científicos e estatísticos válidos, embora diferentes. O ideal seria que em cada estudo aplicássemos os dois métodos, porque um desempenharia um papel confirmatório ou não do outro, dando-nos maior certeza estatística sobre nossos 11 achados. Esta posição está bem defendida no artigo de Bradley E.: Bayesians, frequentists, and scientists, que pode ser acessado na seguinte página da “Internet”: www-stat.stanford.edu/~brad/papers/Bay- Freq_2005.pdf. ─ É possível pesquisarmos cientificamente sem a Estatística? ─ É claro que sim! Não poderíamos concluir este primeiro capítulo sem discutir esse assunto com você. A Estatística é uma poderosa ferramenta para pesquisas quantitativas em vários campos do conhecimento, e não somente na área de saúde na qual atuamos. Mas isso não quer dizer que essa ferramenta não tenha limitações, algumas intransponíveis a nosso ver. As pesquisas qualitativas têm um papel também importantíssimo e insubstituível. Elas investigam um número menor de indivíduos, mas com uma profundidade, um detalhamento muito maior do que as pesquisas quantitativas que, por sua vez, propiciam o estudo de um número maior de indivíduos, mas de modo extensivo e superficial. Defendemos a necessidade de que as abordagens quantitativa e qualitativa se complementem. Para nós, um bom estudo epidemiológico deve conter essas duas abordagens porque nenhuma isoladamente consegue dar conta da totalidade que se pretende investigar, deixando lacunas indesejáveis na investigação. Se você se interessou por este tema tão instigante, busque alguns dos vários livros e artigos disponíveis sobre ele na literatura, pois não o abordaremos novamente, para não nos afastarmos dos objetivos deste livro. Faça uma pausa e curta um pouco a vida antes de retomar a leitura deste livro. Curtir a vida é tão importante quanto trabalhar. Sobre a defesa desse ponto de vista sugerimos as seguintes leituras: a) Russel B. O elogio ao ócio. Rio de Janeiro (RJ): Sextante; 2002; b) Lafargue P. O direito à preguiça, que pode ser acessado no seguinte sítio da “Internet”: www.ebooksbrasil.org/eLibris/direitopreguica.html; c) Kurz R. Manifesto contra o trabalho, que pode ser acessado no sítio: www.dhnet.org.br/desejos/textos/krisis.htm; d) De Masi D. O ócio criativo. Rio de Janeiro (RJ): Sextante; 2000; e e) Sennett R. A corrosão do caráter. 5a ed. Rio de Janeiro (RJ): Record; 1999. 1213 CAPÍTULO 2 � O que são variáveis? � Como classificar as variáveis? � Qual dessas classificações devemos utilizar? � Para que todo esse esforço em classificar variáveis? 14 ─ O que são variáveis? ─ Nosso ponto de partida neste capítulo será definir o que é uma variável. Depois discutiremos com você as diversas maneiras de classificá-la. Finalmente, abordaremos rapidamente a importância de classificarmos as variáveis utilizadas em nossas pesquisas. Uma variável, como a denominação já deixa claro, é uma característica que varia entre os indivíduos estudados. A idade, o peso, a altura, o sexo, a raça, entre outras, são características que variam entre os indivíduos a serem estudados; uns são mais jovens, outros mais velhos; mais leves ou mais pesados; mais baixos ou mais altos; homens ou mulheres; brancos, negros, mulatos, índios ou amarelos. Se uma característica não varia em uma determinada população, a rigor não deveria ser chamada de “variável”. Por exemplo, se todos os indivíduos que estivéssemos estudando tivessem a mesma idade não deveríamos considerar a idade como uma “variável” nesse estudo. Na prática, contudo, variáveis que foram neutralizadas ou controladas e, por isso, não variam, continuam sendo chamadas de “variáveis”, porque até o momento ninguém se deu ao trabalho, inclusive nós, de propor uma outra denominação para ser usada nessas situações. Os epidemiologistas já se acostumaram a continuar chamando essas características de “variável”, mesmo quando não variam. Mas, tudo bem! Podemos conviver com tal contradição, porque na prática, você verá que isso não nos atrapalhará. ─ Como classificar as variáveis? ─ Reconhecemos que as classificações das variáveis podem ficar muito confusas, mas achamos que isso só ocorre quando os estatísticos não deixam logo claro, desde o início, que existem várias classificações e que cada uma baseia-se em um critério diferente. Assim, uma mesma variável pode ser classificada e, portanto, denominada de diversas maneiras. E é exatamente isso que gera tanta confusão. Antes de prosseguirmos, é importante você aprender que os valores passíveis de serem assumidos por uma variável são chamados de categorias da variável. Sexo (definido biologicamente), p. ex., é uma variável com duas categorias: masculino e feminino; ou homem e mulher. É claro que alguém pode discordar dessa classificação, argüindo que essas duas categorias não incluem todo o espectro de variação dessa variável. Essa crítica é procedente, sendo mais adequado mantermos a variável “sexo biológico” como foi definida acima, e utilizarmos uma outra que poderia ser chamada de “orientação sexual” para englobar um amplo leque de opções. O primeiro critério de classificação leva em conta a natureza qualitativa (indicando uma qualidade) ou quantitativa (indicando uma quantidade) da variável. Por esse critério, obviamente, podemos classificar uma variável como qualitativa ou quantitativa. A variável “raça” é um exemplo de variável qualitativa. Cada uma de suas categorias (negro, mulato, branco, índio ou amarelo) indica um indivíduo com qualidades (características) diferentes dos demais. Outro exemplo, entre muitos, é o de uma variável que indique se o indivíduo está ou não doente. Já a variável “peso”, é quantitativa, pois suas categorias indicam a quantidade de peso (em kg) para cada indivíduo. Outros exemplos desse último tipo são as variáveis “altura” e “idade”. 15 Outro critério utilizado é a posição da variável no quadro de hipóteses da pesquisa. Por tal critério uma variável pode ser classificada em dependente ou independente. O primeiro tipo indica o efeito, a resposta, o desfecho que está sendo estudado, sendo na maior parte das vezes uma doença. O segundo representa um possível determinante (causa ou fator associado) ao efeito estudado. As variáveis independentes podem ser subdivididas em independente principal (ou de estudo, ou de interesse, ou causal), ou independente secundária (ou covariável, ou variável de controle ou confundidora). Veja a figura abaixo: Em um estudo para investigar se o hábito de fumar provoca câncer de pulmão, a variável dependente seria o câncer de pulmão porque a hipótese da pesquisa assumiria que a ocorrência deste câncer dependeria do hábito de fumar, e este hábito seria a variável independente porque, conforme o quadro teórico da pesquisa, sua ocorrência não dependeria (seria independente) da presença do câncer. A variável independente “hábito de fumar” seria denominada de principal porque neste exemplo seria a variável na qual os investigadores estariam especificamente interessados. Logo, a associação entre hábito de fumar e câncer de pulmão seria considerada como a associação principal do estudo. Os pesquisadores também deveriam investigar a influência das variáveis independentes secundárias, de modo a neutralizar o efeito dessas sobre a associação principal estudada. No exemplo dado, teríamos de neutralizar, p. ex., o efeito da variável “idade”, porque para estarmos mais seguros de que havia uma associação entre hábito de fumar e câncer de pulmão, seria necessário afastarmos a possibilidade de que essa associação resultasse apenas do fato dos indivíduos mais idosos fumarem mais e, ao mesmo tempo, por sua idade avançada, estarem mais sujeitos a apresentar câncer de pulmão em decorrência de fenômenos degenerativos (que se acentuam com a idade), e não por efeito de substâncias cancerígenas presentes no cigarro. Assim, os fumantes pareceriam ter um risco maior de câncer de pulmão apenas porque eram mais idosos do que os não-fumantes. É justamente pela possibilidade de confundirem a associação principal estudada, que se torna indispensável a neutralização de variáveis independentes secundárias. Veja a figura a seguir: Variável independente principal Variável dependente Variável independente secundária Quanto à posição no quadro de hipóteses Quanto à natureza Variável qualitativa Ex.: raça, sexo Variável quantitativa Ex.: peso, altura, idade 16 Não explicaremos conceitual nem tecnicamente em maior detalhe esse fenômeno da “confusão” ou “confundimento” em estudos epidemiológicos, pois isso nos afastaria dos objetivos propostos neste livro. Se precisar desse aprofundamento, sugerimos que consulte outras fontes (Pereira MG. Epidemiologia: teoria e prática. Rio de Janeiro (RJ): Guanabara Koogan; 1995; Kleinbaum DG, Kupper LL, Morgenstern H. Epidemiologic Research. Belmont (CA): Lifetime Learning; 1982; Hothman KJ, Greenland S. Modern epidemiology, editores. 2 a ed. Philadelphia (PA): Lippincott Williams e Wilkins; 1998; e Hennekens CH, Buring JE. Epidemiology in Medicine. Boston (MA): Little, Brown; 1987). Outro tipo de variável independente é a interveniente (ou intermediária), assim denominada porque se encontra no caminho causal entre a variável independente principal e a variável dependente. Veja a figura abaixo: Um exemplo de variável interveniente pode ser encontrado no artigo: Niobey FML, Duchiade MP, Vasconcelos AGG, Carvalho ML, Leal MC, Valente JG. Fatores de risco para morte por pneumonia em menores de um ano em uma região metropolitana do sudeste do Brasil. Um estudo tipo caso-controle. Rev Saúde Pública 1992 Ago;26(4):229-38. Os autores sugerem que a condição social da família determina o peso ao nascer, que por sua vez influencia a mortalidade por pneumonia em menores de um ano. Assim, para eles, é através da ocorrência de baixo peso que a condição social se associa a uma maior mortalidade por pneumonia, como apresentado na figura abaixo: É importante identificarmos as variáveis intervenientes, de modo a evitar que essas sejam neutralizadas, pois, sendointervenientes, ao neutralizá-las os pesquisadores estariam cometendo uma falha analítica grave, já que sua neutralização anularia também o efeito da variável independente principal. ─ Por quê? ─ Ora! Se uma variável é interveniente, seu surgimento decorre da ação da variável independente principal, e esta, por sua vez, só poderá exercer sua influência sobre a variável dependente através da variável interveniente. Se esta última, portanto, for neutralizada, o efeito da variável independente principal também será anulado. E a última coisa que você pode desejar que aconteça em seu estudo é que sua Peso ao nascer Mortalidade por pneumonia Condição social da família Hábito de fumar Idade Câncer de pulmão Variável independente principal Variável interveniente Variável dependente 17 variável independente principal seja neutralizada, porque é preciso que essa variável varie livremente nos grupos que estão sendo comparados para que possamos analisar os resultados e chegar a alguma conclusão a respeito da influência dessa variável sobre a variável dependente do estudo. No exemplo acima, se neutralizássemos a influência do peso ao nascer, estaríamos também anulando o efeito da condição social sobre a mortalidade por pneumonias, o que comprometeria completamente o estudo. Você deve também estar atento(a) ao fato de que uma variável independente secundária pode modificar o efeito de uma variável independente principal sobre a variável dependente estudada. Vimos anteriormente que uma variável pode confundir uma associação entre outras duas variáveis. Agora estamos vendo que uma variável pode modificar essa associação. Um dos métodos estatísticos mais simples para verificação tanto da existência de confusão como de modificação de efeito (também chamada de interação entre variáveis) é denominado “análise estratificada”. Você pode estudar esse método nos livros já sugeridos. Se você estivesse estudando a associação entre dieta rica em carnes e verduras frescas e câncer da boca ou orofaringe, e encontrasse associações estatisticamente diferentes entre essas variáveis ao analisar separadamente os indivíduos que consumiam e os que não consumiam freqüentemente bebidas alcoólicas, isso deveria ser considerado por você como evidência de existência de interação entre o consumo de bebidas alcoólicas e dieta rica em carnes e verduras frescas. Haveria interação entre consumo de bebidas alcoólicas e dieta, porque consumir ou não essas bebidas alteraria (modificaria) a associação (o efeito) da dieta sobre aqueles cânceres. Por isso, a “interação” entre variáveis é também chamada de “modificação de efeito”. A interação pode ser positiva (também chamada de sinergismo) quando a presença de uma aumenta o efeito da outra, ou negativa (também chamada de antagonismo) quando a presença de uma diminui o efeito da outra. Além das leituras já sugeridas, se estiver interessado(a) nos assuntos “confundimento” e “interação”, pode também estudar as páginas 618 a 623 do livro Daniel WW. Biostatistics: a foundation for analysis in the health sciences. 7 a ed. New York (NY): John Wiley e Sons; 1999 e/ou as páginas 591 a 605 do livro Rosner B. Fundamentals of Biostatistics. 5 a ed. Pacifc Grove (CA): Duxbury; 2000. Outro aspecto importante é que uma variável em um determinado estudo pode ser independente principal, mas em outro, pode ser dependente. Um pesquisador pode, p. ex., estar interessado em investigar se o fato de um indivíduo saber que tem câncer de pulmão em um estágio avançado aumenta a probabilidade dele adquirir o hábito de fumar, devido às tensões psicológicas decorrentes da situação difícil em que se encontra. Nesse estudo, a variável independente principal seria o câncer de pulmão e o hábito de fumar a variável dependente. Observe a seguir que agora as duas variáveis estão em posições completamente diferentes daquelas que ocupavam no exemplo mencionado anteriormente: Segundo o quadro de hipóteses atual, hábito de fumar é a variável dependente, câncer de pulmão passou a ser a variável independente principal e a idade continua sendo uma variável independente secundária ou covariável. Câncer de pulmão Idade Hábito de fumar 18 Há outras denominações para variáveis considerando-se o seu lugar no quadro de hipóteses do estudo, mas detalhar melhor esse tema foge aos objetivos deste livro. Se estiver interessado em aprofundar o tópico, sugerimos que procure outra fonte (Forattini OP. Epidemiologia Geral. 2a ed. São Paulo (SP): Artes Médicas; 1996). Veja a seguir um resumo dos tipos de variáveis, segundo sua posição no quadro de hipóteses da pesquisa: CLASSIFICAÇÃO DAS VARIÁVEIS SEGUNDO SUA POSIÇÃO NO QUADRO DE HIPÓTESES DA PESQUISA Dependente Supõe-se que sua ocorrência depende da influência das variáveis independentes Independente Principal (de estudo, de interesse, causal) É (ou são) a(s) variável(is) de interesse do estudo Secundária (covariável, confundi- dora ou de interação, a ser neutralizada ou controlada) É (ou são) a(s) variável(is) que pode(m) influenciar a associação principal do estudo Interveniente É (ou são) a(s) variável(is) que se encontram no caminho causal entre a variável independente principal e a variável dependente do estudo; Não devem ser neutralizadas Você poderá classificar variáveis também levando em conta se estão medidas em um espectro de valores contínuos ou não. Por esse critério, as variáveis são denominadas de contínuas ou discretas. Poderiam tê-las denominado como contínuas ou descontínuas, mas se os estatísticos podem complicar para que simplificar? As variáveis “peso”, “altura”, “idade”, “nível de glicemia”, são exemplos de variáveis contínuas porque os valores que podem ocorrer para essas variáveis variam em uma escala contínua. Portanto, não há intervalos, saltos, entre os possíveis valores dessas variáveis. A idade, p. ex., pode ser medida em anos, meses, semanas, dias, horas, minutos, segundos, de modo a praticamente não haver intervalo entre um valor possível e outro dessa variável. ─ Vocês não classificaram anteriormente as variáveis “peso”, “altura” e “idade” como variáveis quantitativas? E a idade também já não foi chamada de variável independente secundária ou covariável? Como é que agora a idade é classificada também como variável contínua? ─ É exatamente isso! Uma mesma variável pode ser denominada por várias maneiras diferentes, porque existem diversos critérios para sua classificação. Então, a variável “idade” pode ser classificada como quantitativa porque expressa quantidades; como dependente, independente principal, covariável ou interveniente, a depender de sua posição no quadro de hipóteses do estudo; como contínua porque é expressa em uma escala contínua de valores; e assim por diante. As variáveis discretas são expressas em valores descontínuos. Esses, por serem descontínuos, são chamados de categorias da variável. Ou seja, há um intervalo entre uma categoria e outra da variável. Alguns exemplos desse tipo de variável são: sexo, estado civil, raça, número de filhos e número de gestações. Estas duas últimas, embora quantitativas, são variáveis discretas porque não podem ser expressas em valores contínuos. Seria absurdo admitirmos um filho e meio ou uma gestação e meia, não é? Uma mulher não tem metade de um filho, metade de uma gestação (um aborto não deve ser considerado como metade de uma gestação; um aborto é um aborto). Assim tem-se um filho, ou dois, ou três, etc.; uma gestação, ou duas, ou três, etc. Essas variáveis, portanto, não variam em valores contínuos, não podendo ser expressas em 19 números fracionários. As variáveis “sexo”, “estado civil” e “raça”, são ainda mais claramente descontínuas (discretas),já que há intervalos evidentes entre suas possíveis categorias. Observe que a variável “sexo” também já recebeu, até o momento, diferentes denominações. É qualitativa porque suas categorias (masculino e feminino) expressam qualidades distintas e não quantidades; geralmente, mas não obrigatoriamente, se posiciona como variável independente secundária no quadro de hipóteses, porque queremos saber qual a sua influência na ocorrência das doenças (se quisermos estudar que características ou hábitos das gestantes influenciam o sexo da criança que irá nascer, a variável “sexo” será dependente); e é discreta porque seus valores (categorias) são separados por intervalos, ou seja, não podem ser expressos em valores contínuos. Podemos classificar as variáveis também de acordo com o número de categorias que possuem. Por esse critério, classificaremos uma variável como dicotômica se essa admitir apenas duas categorias. A variável “sexo”, p. ex., tal como utilizada comumente, admite apenas duas classificações: sexo masculino ou feminino, sendo portanto, uma variável dicotômica. As variáveis com respostas sim ou não, ou presente ou ausente, são também exemplos de variáveis dicotômicas. ─ E se o número de categorias for maior do que dois? ─ Denominaremos a variável de policotômica. Alguns exemplos: “Grau de instrução” (analfabeto, primeiro grau incompleto, primeiro grau completo, segundo grau incompleto, segundo grau completo, terceiro grau incompleto, terceiro grau completo, pós-graduação incompleta, pós-graduação completa); “inserção no processo produtivo” (aposentado, assalariado, autônomo, pequeno proprietário, grande proprietário); e “raça” (negro, branco, mulato escuro, mulato médio, mulato claro, amarelo, índio). Outro critério de classificação leva em conta se as freqüências de indivíduos nas diferentes categorias da variável foram fixadas previamente pelo investigador ou não. Na primeira situação a variável é chamada de fixa, porque teve o número de indivíduos em cada categoria fixado no planejamento do estudo, e na segunda é denominada aleatória, porque suas freqüências puderam variar aleatoriamente, sem interferência do pesquisador. Se, em um estudo epidemiológico do tipo caso-controle, decidíssemos estudar igual número de casos e controles, a presença ou ausência da doença estudada, que seria nossa variável Quanto ao número de categorias Variável dicotômica Ex.: sexo, hábito de fumar (sim ou não) Variável policotômica Ex.: grau de instrução, inserção no processo produtivo, raça (quando expressas em mais de duas categorias) Quanto à continuidade entre seus possíveis valores Variável contínua Ex.: peso, altura, idade, glicemia Variável discreta Ex.: sexo, estado civil, raça, no de filhos, no de gestações 20 dependente, e que especificaria os dois grupos a serem comparados, seria uma variável fixa, já que nós fixaríamos previamente quantos seriam os casos e quantos os controles. Se, nesse mesmo exemplo, nossa variável independente principal fosse “hábito de fumar”, e não fixássemos previamente o número de fumantes e não fumantes a serem investigados, deixando que esses números expressassem livremente (sem nossa interferência) quantos fumantes ou não-fumantes realmente existissem na amostra ou população estudada, essa variável seria classificada como aleatória. Outro critério para classificarmos uma variável é o nível de individualização da informação contida na mesma. Por esse critério uma variável pode ser: individualizada, agregada, ambiental ou global. Exemplificando: se coletarmos e analisarmos a variável “tabagismo” considerando as categorias “sim” e “não”, deveremos classificá-la como individualizada, porque para cada indivíduo estudado teremos a informação sobre se ele(a) fuma ou não. Mas, se a analisarmos como o porcentual de fumantes em determinadas localidades que estivermos comparando, a variável “tabagismo” deve ser classificada como agregada, pois, embora inicialmente tivesse sido coletada ao nível individual, estará sendo considerada ao nível agregado. O porcentual de fumantes expressará uma característica de cada grupo (agregado) de indivíduos investigado, e não de cada indivíduo. Uma variável será chamada de ambiental, se expressar características físicas de um lugar no qual os grupos estudados vivem e/ou trabalham, tais como: nível de poluição do ar, nível de radioatividade, e número de horas de luz solar no local. Essas variáveis podem ser mensuradas ao nível individual, mas, geralmente, isso não é feito. Uma variável será chamada de global, se tiver intrinsecamente uma natureza coletiva, isto é, se expressar uma informação que não possa ser individualizada. É o exemplo das variáveis: “densidade populacional” e “grau de industrialização”, cuja obtenção não faz sentido para indivíduos isoladamente. Você pode ler mais sobre esse critério em Rothman KJ e Greenland S, editores. Modern epidemiology. 2 a ed. Philadelphia (PA): Lippincott Williams e Wilkins; 1998, nas páginas 460 e 461. As variáveis podem ser classificadas ainda de acordo com a modalidade da escala em que são medidas. Por esse critério, as variáveis podem ser classificadas como nominais, ordinais, intervalares ou de razão. Sexo, com base nesse critério, é uma variável nominal porque além de cada uma de suas categorias indicar uma qualidade bem distinta da outra, não é possível colocarmos suas categorias em ordem crescente Quanto à fixação prévia das freqüências Variável fixa Variável aleatória Quanto à individualização da informação Variável individualizada Ex.: sexo (masc. ou fem.), hábito de fumar (sim ou não) Variável global Ex.: grau de industrialização, densidade populacional Variável agregada Ex.: sexo (% de masc. ou % de fem.), hábito de fumar (% de sins ou % de nãos), média de idade em subgrupos de uma população Variável ambiental Ex.: nível de poluição do ar, nível de radioatividade 21 ou decrescente, por algum critério de ordenamento aceitável. Você sugere algum critério aceitável para colocarmos as categorias da variável sexo em ordem? Nenhum critério seria aceitável, não é? ─ E para as categorias da variável “raça”? ─ Se fôssemos racistas poderíamos ordenar as raças pela suposta superioridade de umas sobre outras. Na nossa opinião, como não existe um critério aceitável para ordenar as categorias de raça, classificaremos essa variável também como nominal. O nome de cada categoria da variável raça (negro, branco, mulato escuro, mulato médio, mulato claro, amarelo, índio) indica uma qualidade racial, e isso é o máximo que sua modalidade de escala consegue expressar. As variáveis ordinais, por sua vez, são aquelas cujas categorias podem ser postas em ordem crescente ou decrescente, por algum critério justificável. Este tipo de variável já contém um certo grau de quantificação e é isso que permite colocarmos suas categorias em ordem. “Grau de instrução” (analfabeto, primeiro grau incompleto, primeiro grau completo, segundo grau incompleto, segundo grau completo, terceiro grau incompleto, terceiro grau completo, pós-graduação incompleta, pós-graduação completa), p. ex., é uma variável ordinal porque podemos colocar suas categorias ordenadas do menor ao maior grau de escolaridade (como fizemos acima) ou vice-versa. Mas, note que não há intervalos regulares entre uma categoria e outra dessa variável. Você pode me garantir que o intervalo entre analfabeto e primeiro grau incompleto tem a mesma amplitude que o intervalo entre primeiro grau incompleto e primeiro grau completo? É claro que não! Portanto, para uma variável ser classificada como ordinal é necessário que possamos colocar suas categorias em ordem e que os intervalos entre essas categorias não sejam regulares. Se as categorias de uma variável puderem ser postas
Compartilhar