Case de um dataset de filmes e suas avaliações que tem como objetivo a pratica de amostragem de datasets a fim de obter mais conhecimento e preparo para lidar com bases de dados com alto volume de dados de maneira que seja possível trabalhar de maneira mais rápida, menos custosa (em relação ao seu desempenho em uma máquina com menos capacidade de processamento).
O dataset é composto pelas seguintes colunas e suas descrições:
title -> Titulo do filme year -> Ano que foi lançado certificate -> Classificação em termos de restrições de idade (no padrão dos Estados Unidos) duration -> Duração do filme genre -> Gênero do filme rating -> Avaliação do filme description -> A descrição do filme stars -> Quantas estrelas teve o filme votes -> Quantos votos teve o filme
Primeiro foi feito uma análise básíca dos dados para verificar quantidade de dados no dataset, quais eram os tipos dos dados e depois uma análise gráfica com boxplot e histogramas para ter uma representação visual dos dados a fim de obter melhor clareza dos mesmos.
Em seguida foram feitas várias amostragens com a fórmula da amostragem simples:
- Tamanho da amostra = [z2 * p(1-p)] / e2 / 1 + [z2 * p(1-p)] / e2 * N].
Foi estudado amostragem simples, sistemática, teorema de limite central e intervalo de confiança.