Este curso práctico tiene como finalidad que les alumnes sean capaces de utilizar herramientas tecnológicas para trabajar con datos, elaborar y corroborar hipótesis, explorar espacios de información, y apoyar la toma de decisiones. Particularmente, el curso se enfoca en tres unidades: análisis y exploración de datos, visualización de información y ciencia de redes.
La intención de la primera unidad, análisis y exploración de datos, es que les estudiantes puedan utilizar herramientas de procesamiento de datos y entornos de programación para poder cargar, limpiar, evaluar, cruzar y explorar datasets en un área aplicada específica, como transporte, redes sociales, o colecciones de documentos.
La segunda unidad, visualización de información, busca que les estudiantes puedan comunicar de manera gráfica los análisis realizados, las propiedades de los datos, las hipótesis de trabajo que guiaron la exploración, así como fomentar el espíritu crítico, para que les estudiantes aprendan a interpretar gráficos y cuestionar decisiones estadísticas y gráficas.
La tercera unidad, ciencia de redes, se enfoca en el análisis y construcción de redes, donde las entidades que están presentes en un dataset no solamente existen individualmente, sino que también presentan relaciones entre ellas. El análisis de redes permite encontrar elementos importantes dentro de ellas (centralidad), determinar conjuntos de elementos que compartan propiedades (clustering) o que separan la red en sub-redes (detección de comunidades), o bien encontrar caminos (shortest path) entre elementos de una red, algo común en transportes y comunicaciones.
Diego Caro y Eduardo Graells-Garrido del Instituto de Data Science, Ingeniería UDD.
Nuestros correos son dcaro
y egraells
en udd.cl
.
Cada clase realizaremos las siguientes actividades:
- Discusión de lectura obligatoria (uno de los artículos académicos indicados más abajo).
- Seguimiento del estado de los proyectos de cada grupo/alumne.
- Revisiones de tareas entregadas en la clase anterior.
- Enseñaremos contenido teórico.
- Nos enfocaremos en el código necesario para implementar, entender y experimentar con el contenido teórico.
Versión 2018.1. Jueves, 14:30 a 17:20. Sala Computación 033, Campus RESB, Universidad del Desarrollo.
Debes tener conocimientos sólidos de estadística y básicos de programación. Utilizaremos el lenguaje Python en sus versiones 3.5 o 3.6.
Herramientas:
- Anaconda, distribución de Python con todo el entorno científico necesario para el curso, incluyendo las bibliotecas que usaremos: pandas, geopandas, seaborn, statsmodels, networkx, scikit-learn, entre otras.
- Jupyter, entorno de computación científica y desarrollo, enfocado en ciencia de datos. Funciona principalmente con Python pero también tiene interoperabilidad con otros lenguajes usados en el área, como R. Aquí se puede probar en línea.
- Google Colab, un Jupyter notebook colaborativo desarrollado por Google. La ventaja es que dos o más personas pueden editar el notebook, tal como funciona Google Docs.
Tutoriales, contenido:
- A Whirlwind Tour of Python de Jake Vanderplas.
- Python Data Science Handbook de Jake Vanderplas.
- Network Science de Albert-László Barabási.