Repo del proyecto que presentamos en el Saturdays.AI
Hemos dividido el proyecto en tres partes (o tres notebooks) uno para hacer una mini parte con el EDA, otro para hacer pruebas y entrenar la red de forma final, y otra para procesar los datos intentando crear un dataset más completo.
En esta parte hemos seleccionado los datos a utilizar para luego entrenar la IA, como el dataset que hemos utilizado de Kaggle, iniciamos el EDA con más de 25GB de datos, obviamente para el tiempo que disponíamos era demasiado, puesto que luego entrenar la red nos iba a llevar demasiado tiempo. Decidimos directamente quedarnos unicamente con los segmentos que no tenían ningún nulo, así nos quedamos con un 25% del dataset, haciendo que pudieramos procesar todo y hacer pruebas mucho más rápido y con datos fiables, sin tener que perder tiempo filtrando o arreglando el dataset a mano.