Case de amostragem de datasets

Case de um dataset de filmes e suas avaliações que tem como objetivo a pratica de amostragem de datasets a fim de obter mais conhecimento e preparo para lidar com bases de dados com alto volume de dados de maneira que seja possível trabalhar de maneira mais rápida, menos custosa (em relação ao seu desempenho em uma máquina com menos capacidade de processamento).

O dataset é composto pelas seguintes colunas e suas descrições:

title -> Titulo do filme year -> Ano que foi lançado certificate -> Classificação em termos de restrições de idade (no padrão dos Estados Unidos) duration -> Duração do filme genre -> Gênero do filme rating -> Avaliação do filme description -> A descrição do filme stars -> Quantas estrelas teve o filme votes -> Quantos votos teve o filme

Primeiro foi feito uma análise básíca dos dados para verificar quantidade de dados no dataset, quais eram os tipos dos dados e depois uma análise gráfica com boxplot e histogramas para ter uma representação visual dos dados a fim de obter melhor clareza dos mesmos.

Em seguida foram feitas várias amostragens com a fórmula da amostragem simples:

Tamanho da amostra = [z2 * p(1-p)] / e2 / 1 + [z2 * p(1-p)] / e2 * N].

Foi estudado amostragem simples, sistemática, teorema de limite central e intervalo de confiança.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
notebooks		notebooks
.gitattributes		.gitattributes
AUTHORS.md		AUTHORS.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Case de amostragem de datasets

About

Releases

Packages

Languages

License

oluuizfernando/case-amostragem-movies

Folders and files

Latest commit

History

Repository files navigation

Case de amostragem de datasets

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages