O objetivo deste projeto é manter os arquivos da disciplina de Aprendizagem de Máquina.
Este projeto é composto pelos seguintes diretórios e arquivos:
- references: nesta pasta você vai encontrar alguns ebooks ou artigos que serão utilizados na disciplina;
- reports: aqui é o lugar onde os resultados dos exercícios e projetos serão publicados;
- scripts: diretório que possui todos os scripts utilizados em sala de aula, e;
- slides: diretório que possui todos os slides utilizados em sala de aula.
Todo os exemplos e implementações estão escritos em Python ou R. Os projetos desta disciplina seguem o processo CRISP-DM.
No segundo semestre de 2020 vamos utilizar as ferramentas Watson Studio ou Anaconda como ambientes de desenvolvimento para esta disciplina.
- German Credit Risk: https://www.kaggle.com/uciml/german-credit ou dataset/german_credit_data.csv
- Câncer de mama: https://www.kaggle.com/uciml/breast-cancer-wisconsin-data dataset/breast-cancer-wisconsin.csv
- Valor de imóvel em São Paulo: dataset/20140917_imoveis_filtrados_final.csv_shaped.csv
- Madelon dataset: http://archive.ics.uci.edu/ml/datasets/madelon
- Pump it Up: Data Mining the Water Table: https://www.drivendata.org/competitions/7/pump-it-up-data-mining-the-water-table/
- Abalos sísmicos: https://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_month.csv
- SNS Data: dataset/snsdata.csv
- Grocery Store: data("Groceries")
- Iris dataset: data(iris) ou load_iris() ou dataset/iris.csv
- Cars: dataset/cars.csv
As listas de exercícios abaixo não são obrigatórias. No entanto, é fortemente recomendado que os participantes da disciplina façam os exercícios destas listas. Trata-se de uma excelente ferramenta para exercitar os conceitos vistos em sala de aula.
-
Projeto 01: pré-processamento e análise descritiva. Um exemplo de projeto bem implementado pode ser encontrado aqui.
-
Projeto 02: desenvolvimento de um modelo preditivo (classificador) que consegue identificar quando um cliente de uma instituição financeira irá ou não executar uma determinada transação.
-
Projeto 03: desenvolvimento de um modelo de regressão para preços de imóveis na cidade de São Paulo.
Opcionalmente, podemos utilizar virtualenv
para sempre utilizar o mesmo conjunto de pacotes e versão de python.
python3.8 -m virtualenv venv
source venv/bin/activate
python -m pip install --upgrade pip
pip install -r requirements.txt
É fortemente aconselhável que todos os alunos da disciplina sigam este projeto no GitHub através da funcionalidade Watching. Desta forma, todos os alunos terão acesso as notícias, atividades e conteúdos novos da disciplina.