Introdução

Bem vindo ao primeiro módulo de Introdução à Estatística para Data Science que é uma produção exclusiva para do projeto R NA PRÁTICA. Esta série será composta por quatro módulos e neste primeiro, abordaremos os principais conceitos estatísticos e análise descritiva. O objetivo maior desta parte é revisar os conceitos mais importantes do inicio dos estudos estatísticos tão requisitados para quem trabalha com ciência de dados. Abordaremos a parte conceitual com algumas definições e termos estatísticos, veremos tabelas de frequências, as principais medidas descritivas (média, mediana e outras). Veremos ainda algumas medidas de correlação e associação e os principais gráficos estatísticos mais utilizados. Para reforçar os conhecimentos, faremos exercícios práticos com apoio do R com foco em bases de dados reais do INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira do ano de 2017.

No final deste módulo você será capaz de:

  • Definir estatística;
  • Compreender os principais tipos de variáveis e entender as melhores técnicas para cada tipo de variável;
  • Entender o que é e como utilizar tabelas de frequências simples e de dupla entrada;
  • Trabalhar com as principais medidas estatísticas (media, mediana, desvio padrão, etc.);
  • Entender correlação, covariância, estatística Qui-quadrado e V de Crámer;
  • Construir gráficos estatísticos para os tipos corretos de dados com o pacote ggplot2.

Motivação

A estatística é matemática aplicada e está em tudo! É atribuída a H.G. Wells a seguinte frase:

“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write. — H.G. Wells”

Que em português se traduz em algo como:

“O conhecimento estatístico um dia será tão necessário para uma cidadania eficiente quanto a habilidade de ler e escrever.”

Nesta frase podemos trocar termo “um dia será …” para “hoje é…”, pois nos dias atuais nossas vidas são afetadas significativamente pelo conhecimento estatístico de tal forma que não podemos ignorar este fato. Veja alguns exemplos de onde a estatística pode ser aplicada:

  • Na sua lista de compras: Sim, é importante medir as diferenças de preços dos produtos e o percentual de seu salário gasto com alimentos pra não ficar sem grana por aluguel;

  • Na previsão do tempo: Sair sem guarda-chuva ou de bicicleta em um dia de chuva, nem pensar. Mas você não saberia o que fazer pela manhã se observasse o dia claro e sem sinais de chuva. Somente uma previsão estatística confiável seria capaz de te ajudar a decidir antecipadamente;

  • Na pesquisa científica: Toda pesquisa científica usa estatística. Se não utilizar é porque não é científica mas sim especulativa;

  • Em seguros: Seguros de vida, de veículos, de saúde, dental, daquele bumbum siliconado. Tudo envolve estatística. É através dela que os estatísticos constroem os melhores modelos com base em variáveis históricas e nas segmentações de perfis de cada grupo de indivíduos;

  • Em pesquisas médicas: Controle de epidemias, vacinas, taxas de sobrevida, taxas de recuperação de tecidos e ossos, regressão de doenças infecciosas, testes de grupos de risco e uma infinidade de situações utilizam estatística para prever, aumentar e melhorar processos que trazem ganho para a saúde e vida das pessoas;

  • Em testes de qualidade: A estatística bate forte na hora de uma empresa obter uma certificação ISO. Seja no controle estatístico de processos, gráficos de controle e/ou gestão da qualidade, sem esta ciência estes nichos não teriam os mesmos resultados;

  • No monitoramento de ataques de vírus: A empresa Kaspesrki por exemplo, coleta dados globais de vírus e sintetiza em um mapa do globo virtual denominado cybermap. Através dele o usuário pode navegar e obter estatísticas relevantes sobre atividades de vírus nos países pelo mundo.

  • No IDH e expectativa de vida: O IDH (Índice de Desenvolvimento Humano) de um país é um bom indicador de desenvolvimento do mesmo. Não tem como calcular IDH sem modelos estatísticos e matemáticos.

Pré-requisitos

Para fazer o melhor proveito deste material, temos as seguintes recomendações:

  • Tenha um computador com acesso á internet, R e RStudio instalados para poder fazer pesquisa, download e resolver/replicar os exercícios propostos e resolvidos;

  • Dedique pelo menos 2 horas da sua semana para ler o material e resolver os exercícios propostos praticando sempre com o R;

  • Sempre que alguma dúvida surgir e não conseguir resolver com ajuda do material, contatar o professor via plataforma para obter suporte adicional ou buscar na Internet;

  • Algum conhecimento prévio da linguagem R ou lógica de programação.

  • Uma base mínima de cálculo é recomendada para melhor compreensão de alguns conceitos e expressões matemáticas abordadas.

Ambiente de trabalho

Este curso não tem a intenção de ensinar detalhadamente programação em R, pois o foco é em conceitos estatísticos. Contudo, sempre que necessário explicaremos algumas funções e comandos utilizados nos scripts. Além disso, para todos os exemplos e exercícios, deixaremos os códigos gerados como forma de estudo e revisão para que tudo possa ser replicado e reaproveitado pelo aluno.

Se sentir dificuldade em compreender algum conceito em linguagem R, recomendamos fazer o nosso curso R NA PRÁTICA: Data Wrangling com R para Ciência de Dados ou qualquer outro do seu interesse para obter mais conhecimentos dobre a linguagem R.

Pacotes

Trabalharemos com o software R e com a IDE (Ambiente de Desenvolvimento Integrado, traduzindo do inglês) RStudio Desktop. Nos links você poderá baixar os dois programas e configurar de acordo com o seu sistema operacional.

Na impossibilidade de ter os programas instalados em seu micro, recomendamos trabalhar com o RStudio Cloud que é um serviço online da RStudio na nuvem com todos os recursos do R e a conveniência de ser acessível via internet a partir da maioria dos dispositivos. Você pode criar uma conta ou logar-se com a sua rede social favorita como github ou Google, por exemplo. Pacotes do CRAN podem ser instalados normalmente, mas pode haver problemas com a instalação de pacotes do github. A figura 0.1 mostra um exemplo da aparência da página com o RStudio online carregado.

RStudio Cloud

Figura 0.1: RStudio Cloud

Trabalharemos sempre que possível com o operador %>% (pipe) e com funções dos pacotes do tidyverse e outros relacionados. Especialmente para o R NA PRÁTICA, desenvolvemos o pacote rnp que poderá ser baixado direto to github. Este pacote está em constante atualização e possui recursos extras para deste livro e também de outros materiais do R NA PRÁTICA em desenvolvimento.

Rode o comando abaixo para instalar, caso ainda não tenha o pacote.

Caso sua instalação do R seja nova, ao instalar o rnp, automaticamente todas as dependências serão baixadas e seu R estará equipado com todos os recursos necessários para trabalhar com este livro. A cada novo módulo adicionaremos novas dependências caso surjam.

Conjuntos de dados

Trabalharemos com conjuntos de dados do Censo do Ensino Superior no Brasil feito anualmente pelo INEP (Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira), especificamente para o ano de 2017. Os dados podem ser baixados diretamente na seção de microdados do site neste link Censo da Educação Superior de 2017, ou se preferir, baixar diretamente com o comando abaixo. Em seguida descompactar os dados utilizando seu descompactador favorito.

Note que o argumento salvar na função rnp_get_inep_censo() dever conter o caminho para a pasta onde os dados baixados serão salvos. Se não for passada uma pasta ou seja, salvar = NULL o R baixará os dados na pasta da seção onde o R foi carregado. Para saber qual é este local digite getwd() no console do R.

Você poderá também ler os dados sem descompactar com o pacote readr, mas recomendamos descompactar para leitura mais rápida com a função rnp_read().

Também disponibilizamos no pacote rnp os dados dm_curso, dm_docente, dm_ies e dm_local. Para acessar, basta carregar o pacote e utilizar os dados conforme exemplo abaixo.

Especificamente para os exemplo deste livro, os dados foram tratados com as descrições das devidas classes e também removemos algumas variáveis com muitos valores nulos. Mantemos apenas as mais importantes. Acreditamos que para fins de apŕendizado, estes dados são suficientes. Porém, para ter os dados originais, sugerimos seguir as dicas anteriores.