Se você acompanha as notícias de jornais e revistas, com certeza já ouviu falar em pesquisas amostrais. São a partir de dados provenientes dessas pesquisas que institutos de pesquisa produzem indicadores conhecidos, como a Taxa de Desocupação (calculada a partir da PNAD Contínua).

Pesquisas amostrais também são muito importantes para acompanhar tendências de comportamento, a exemplo das pesquisas eleitorais e as pesquisas de avaliação de governos. Mas você sabe o que caracteriza uma pesquisa amostral? Sabe distinguir quando os resultados obtidos são confiáveis ou não?

Neste texto vamos falar mais sobre o assunto e deixar você pronto para debater sobre o tema com os amigos e com qualquer profissional da área estatística.

Por que fazer amostra e não censo?

Primeiro, qual a diferença entre os dois? Enquanto nos censos investigamos todos os indivíduos (plaquetas, pessoas, abelhas, etc.) de uma população de interesse (total de plaquetas, população de um país, colmeia, etc.), nas pesquisas amostrais apenas uma parcela da população é investigada.

Assim, essas pesquisas surgiram como alternativa para o levantamento de dados em casos onde não havia possibilidades de entrevistar toda uma população de interesse, seja por razões financeiras, éticas ou questões de vida ou morte mesmo – já imaginou se, ao invés retirar amostras de sangue para fazer testes clínicos, fossem realizados censos?!

O uso de amostras é quase intuitivo quando se trata de inferir coisas e ocorre há séculos. Testamos se a sopa de legumes está bem temperada com a amostra de uma colher (e não da sopa toda), avaliamos se a cerveja está gelada com a amostra de um gole, decidimos se gostamos de um poeta com base na amostra de algumas poesias (e não do livro todo) e assim por diante. A teoria estatística sobre amostragem, porém, só foi formalizada mais recentemente, no século passado, após muitas discussões entre figurões da área (Fisher, Neyman, Mahalanobis e companhia).

O certo é que grande parte do desenvolvimento da Estatística como ciência é devido a amostragem (quem falaria sobre nível de confiança, teste de hipóteses e estimação de parâmetros se não existissem amostras?) e é tão comum nós, cidadãos, tomarmos decisões com base em dados provenientes de pesquisas amostrais que já não podemos viver sem saber como elas são realizadas. Então, vamos lá entender um pouco mais sobre o assunto?

Amostras e Intervalos de Confiança

Imagine que você está interessada(o) em saber o rendimento médio das pessoas que moram no seu país. Uma forma de levantar esta informação é bater à porta de todos os domicílios (cerca de 75milhões no Brasil), em todas as cidades e estados, e perguntar aos moradores quanto recebem por mês, certo? A outra é investigar apenas uma parcela desta população e inferir (fazer inferência) sobre o tema. No primeiro caso, você estaria realizando um censo, no segundo, uma pesquisa amostral.

Pesquisas amostrais tem esse nome porque os indivíduos que farão parte de uma determinada pesquisa são previamente selecionados por meio de uma amostra. Tal amostra pode ser probabilística ou não-probabilística.

Quando temos um cadastro (ou lista) de toda a população de interesse e sorteamos aleatoriamente os participantes da pesquisa, estamos diante de uma amostra probabilística. Neste caso, sabemos exatamente qual a probabilidade de cada pessoa sorteada fazer parte da pesquisa e, assim, podemos ponderar os resultados obtidos na amostra para estimar parâmetros de interesse sobre uma população. As pesquisas amostrais realizadas pelo IBGE e outros órgãos oficiais são exemplos de pesquisas que fazem uso de amostras probabilísticas.

Leia também: por que estatísticas oficiais são importantes?

O acesso à lista de indivíduos de toda uma população de interesse, porém, não é sempre possível e, nestes casos, é comum o uso de amostras não-probabilísticas para levantar dados sobre uma população.  Entre os exemplos de pesquisas que se utilizam de amostras não-probabilísticas estão as pesquisas eleitorais e pesquisas de opinião, geralmente realizadas por institutos de pesquisa privados.

Os resultados de estatísticas e indicadores calculados a partir de amostras devem sempre ser analisados em conjunto com os Intervalos de Confiança (IC) dessas estimativas.

O IC adiciona uma informação essencial à análise de estatísticas calculadas como base em amostras, que é o quanto o resultado encontrado com base em um plano amostral pode variar dentro de um intervalo, de acordo com um nível de confiança (geralmente de 95%). Este nível de confiança corresponde a quantidade de vezes que o IC incluiria o valor da estatística se pudéssemos repetir a amostragem um número grande de vezes.

Imagine, por exemplo, que estamos interessados em saber o comprimento médio de abelhas de uma colmeia. Dispomos de uma lista com a identificação de 1000 abelhas e selecionamos 100 aleatoriamente para fazer parte da amostra. Cada abelha selecionada é medida e, após ponderar os dados obtidos da amostra, infere-se que o IC de 95% de confiança para o comprimento médio das abelhas da colmeia é (3 ; 5). Isto significa que em 95% das vezes que for retirada uma amostra de abelhas desta colmeia, o comprimento médio da população será estimado em algum valor entre 3 e 5 cm.

Agora imagine que resolvo tirar a amostra de 100 abelhas de uma forma diferente. Estratifico a população em abelhas macho e abelhas fêmea e pondero os resultados da amostra considerando estes estratos. Neste caso, se há 30% de abelhas macho e 70% de abelhas fêmea na população, essa proporção entre os estratos deve ser respeitada na amostra. Agora, quando calculo o Intervalo de Confiança de 95%, o resultado é que o comprimento médio da população de abelhas está em algum lugar no intervalo entre (3.8 ; 4.3), ou seja, o comprimento médio da população será estimado em algum valor entre 3.8 e 4.3 cm.

Qual das duas formas de selecionar a amostra você escolheria?

Para responder, você pode pensar no “comprimento médio da população de abelhas” como se fosse um ponto vermelho no centro de um alvo que você quer acertar com flechas. Quanto mais estreita a distância entre a flecha e o alvo, mais assertivo você é em acertar o alvo, certo? Considerando esta dica, você já consegue decidir qual forma de selecionar a amostra você escolheria?

Planos Amostrais

O que difere uma amostra da outra no exemplo das abelhas é a forma como a amostra é selecionada, ou, em termos estatísticos, o plano amostral.

Também conhecido como “desenho amostral”, o plano amostral determina o conjunto de regras e ações utilizadas para seleção da amostra de participantes em uma pesquisa. Ele é determinado, principalmente, pelas características da população de interesse e deve ser construído por especialistas no assunto, os chamados amostristas.

Amostristas são profissionais com formação teórica sólida na área de Amostragem, que planejam o desenho da amostra (incluindo o cálculo de tamanho da amostra) com base na estrutura da população e nos indicadores de interesse da pesquisa. A divulgação de pesquisas eleitorais, por exemplo, só é validada no Tribunal Superior Eleitoral (TSE) se o plano amostral é realizado por amostrista portadora(o) de diploma em Estatística e registrada(o) no CONRE (Conselho Regional de Estatística).

Dependendo das características da pesquisa, os planos amostrais são simples ou complexos, com um ou mais estágios de seleção da amostra. Entre os métodos de seleção de amostras probabilísticas, os mais conhecidos são a Amostragem Aleatória Simples (AAS), Amostragem Estratificada, Amostragem por Conglomerado e Amostragem Sistemática. No exemplo das abelhas, por exemplo, foram citados os planos AAS e Amostragem Estratificada.

Entre os métodos de seleção de amostras não-probabilísticas estão a amostragem por cotas (muito utilizada em pesquisas de opinião), amostragem em pontos de fluxo e amostragem bola de neve, esta última muito utilizada em pesquisas que produzem indicadores sociais relacionados a temas “sensíveis”, como o uso de drogas, contato com vírus HIV, etc.

Dependendo de qual plano amostral é utilizado para selecionar a amostra, o cálculo de estatísticas como média, proporções e variância dos resultados é afetado e, então, o cálculo do IC também. 

Erro de cobertura e de Não-resposta

Mas não é apenas o plano amostral que impacta no IC. A taxa de não-resposta da pesquisa e o viés causado por problemas de cobertura podem ser cruciais para determinar a qualidade das estimativas de uma pesquisa. 

A taxa de não-resposta corresponde ao percentual de pessoas (ou abelhas, ou peças de uma cadeia de produção, etc.) selecionadas para a amostra que não participaram efetivamente da pesquisa, seja por recusa ou por impossibilidade de contato. Quando esta taxa é muito alta, o resultado da pesquisa pode estar viesado e é importante entender o motivo desse viés para interpretar melhor os dados. Se uma pesquisa é realizada em domicílios no horário comercial, por exemplo, é provável que haja uma alta taxa de não-resposta de trabalhadores diurnos (e isto pode afetar os resultados de indicadores relacionados ao trabalho), diminuindo a qualidade das estimativas da pesquisa.

Já o erro de cobertura diz respeito ao fato de não considerar na amostra toda a população de interesse da pesquisa. Isto ocorre, por exemplo, quando pesquisadores não conseguem aplicar questionários em determinados territórios (terras indígenas, condomínios fechados, comunidades, etc.) por motivos legais, culturais, de guerra, etc. e uma parte da população fica de fora da amostra.

O pesquisador Neale El Dash, especialista em amostragem não-probabilística e idealizador do site Polling Data, explica que “problemas de não-resposta e de cobertura são comuns em todos os tipos de pesquisa, porém esses problemas fazem com que suposições mais fortes tenham que ser feitas para que resultados de amostras não-probabilísticas possam ser generalizados para toda a população”.

O pesquisador ressalta, porém, que apesar de demandar cuidados extras para avaliação de resultados como o IC, algumas metodologias de pesquisas amostrais não-probabilísticas produzem resultados bastante razoáveis, permitindo analisar e entender o comportamento e o voto da população, por exemplo.

Principais Pesquisas Amostrais Nacionais

PNADC

A Pesquisa Nacional por Amostra de Domicílios Contínua é a principal pesquisa amostral do país. Realizada pelo IBGE, é a partir da PNADC que são calculadas estatísticas de desemprego, renda, educação e características gerais da população nos anos em que não são realizados o Censo Demográfico.

A PNADC usa plano amostral complexo de dois estágios e entrevista mais de 500 mil brasileiros a cada trimestre. O cadastro utilizado para seleção da amostra probabilística é o CNEFE (Cadastro Nacional para Fins Estatísticos), atualizado a cada 10 anos a partir de dados coletados no Censo Demográfico.

POF

A Pesquisa de Orçamentos Familiares, como o próprio nome revela, levanta dados sobre orçamentos domésticos com o objetivo de avaliar a composição dos gastos, principalmente com relação ao perfil nutricional das famílias.

É a partir dos resultados da POF que é definida a composição da cesta básica brasileira, onde constam os itens que são utilizados como base para cálculo do IPCA (Índice Nacional de Preços ao Consumidor Amplo). Índices antropométricos (peso e altura) úteis para calcular índices de saúde como o IMC, também são levantados nesta pesquisa, realizada de forma amostral com cobertura nacional.

Pesquisas de Opinião

Realizadas em sua grande maioria por institutos de pesquisa privados, incluem pesquisas eleitorais e pesquisas de avaliação do governo.

Os dados são comumente levantados através de amostragem por cotas, onde a população de interesse é caracterizada a partir de variáveis descritivas (gênero, raça, idade, renda, anos de estudo e local de moradia, por exemplo) que são utilizadas para fixação de cotas de resposta. Assim, entrevistadores dirigem-se a local de realização de entrevistas e aplicam questionários até que a cota de um público específico (Ex. 300 Homens, brancos, entre 30-40 anos, com renda entre R$3000-R$5000, graduado, morador do Rio de Janeiro) seja atingida.

Nestas pesquisas, há problemas de cobertura e não-resposta da população que não são facilmente mensuráveis e impactam nas estimativas do IC, impactando na confiabilidade das inferências. Há uma tendência mais atual dos institutos utilizarem a chamada Amostragem Probabilística por Cotas (APC), uma abordagem híbrida de planos amostrais probabilísticos e não-probabilísticos que minimizam problemas com cobertura da população.

Bem, agora que você já sabe um pouco mais sobre o assunto, que tal dar uma olhada nos resultados de algumas pesquisas amostrais e colocar sua capacidade crítica para avaliar os resultados em prática? Conta pra gente se o conteúdo te ajudou a interpretar melhor os resultados e se você ainda tem alguma dúvida! Vamos ficar felizes em saber.

REFERÊNCIAS

CBS: the rise of survey sampling

Djalma Pessoa

Amostragem: teoria e prática 

TSE: resolução n. 23.600

Polling Data

IBGE: PNAD Continua 

IBGE:  pesquisa de orçamentos familiares 

Deixe um Comentário








Enter Captcha Here :