Información Básica
-
Créditos: 3
-
Horas de trabajo acompañado: 5 / semana (3 horas clase, 2 horas taller)
-
Horas de trabajo independiente: 4 / semana
-
Pre-requisitos: Programación Paralela, Gestión y Modelado de Datos
-
Tipo de curso: Énfasis
Descripción del Curso
Las tecnologías tradicionales de bases de datos no son adecuadas para el almacenamiento, procesamiento y análisis de datos en grandes volúmenes y complejidad. En este curso se estudian las tecnologías que soportan el almacenamiento y procesamiento a gran escala de datos provenientes de diversas fuentes de información. Se estudiarán los pasos del proceso para abordar problemas en Big-Data, y las tecnologías que soportan dicho proceso.
Objetivos
Al finalizar el curso los participantes podrán:
-
Describir el contexto y las características del Big-Data y dar ejemplos de problemas en dicho contexto.
-
Identificar los conceptos fundamentales de Big Data y Ciencia de Datos.
-
Evaluar las implicaciones sociales de la aplicación del análisis de datos de diversas fuentes y a gran escala.
-
Aplicar estrategias y el proceso de la ciencia de datos para dar solución a problemas de Big-Data.
-
Usar los modelos de procesamiento, técnicas de almacenamiento y plataformas de procesamiento que se estudian en el curso para implementar soluciones básicas a problemas de Big-Data.
-
Describir la importancia de los métodos de análisis de datos y los casos en los cuales se aplican. Utilizar estos métodos para resolver problemas sencillos.
-
Explicar las ventajas de usar diversas técnicas de visualización de grandes volúmenes de datos, aplicándolas según el problema que se está analizando.
Se desarrollan competencias en
-
Map Reduce (básico)
-
Cloud Data Flow (básico)
-
Hadoop (básico)
-
Apache Spark (básico)
Contenido
Capítulo 1: Introducción al Big Data
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
1 | 2 | Conceptos básicos: La ciencia de datos (Data Science), las V’s, las fuentes de datos | Familiaridad | 1 Cap. 1; 2 Cap. 1 | |
2 | 2 | Problemas de Big Data | Familiaridad | 2 Cap. 2 | |
2,3 | 2 | Aplicaciones y sistemas | Familiaridad | 1 Cap. 2; 2 Cap. 2 | |
3,4 | 1 | 1 | Impacto del Big Data en la sociedad | Familiaridad |
Total de Horas: 8.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
1-3 | 6 | Estudio del tema y preparación del examen parcial | 1 cap. 1; 2 cap. 1,2 |
3,4 | 6 | Tarea: Impacto del Big Data |
Total de Horas: 12.
Capítulo 2: La Ciencia de Datos
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
4 | 1 | Estrategia de Big Data | Familiaridad | ||
5 | 3 | El Proceso de la Ciencia de Datos: Adquirir, explorar, preprocesar y analizar datos, comunicar resultados, tomar acciones | Familiaridad |
Total de Horas: 4.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
4,5 | 4 | Estudio del tema y preparación del examen parcial | 1 cap. 1; 2 cap. 1,2 |
Total de Horas: 4.
Capítulo 3: Modelos de Procesamiento
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
6,7 | 1 | 3 | Map Reduce | Uso | 2 Cap. 5 |
7-9 | 3 | 3 | Cloud Data Flow | Familiaridad |
Total de Horas: 10.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
6-9 | 4 | Proyecto: Aplicación de un modelo de procesamiento a un poblema | 2 cap. 5 |
Total de Horas: 4.
Capítulo 4: Tecnología de Almacenamiento
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
10 | 2 | HDFS (Hadoop Distributed File System) | Familiaridad | ||
11 | 2 | GFS (Google File System) | Familiaridad |
Total de Horas: 4.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
10-11 | 4 | Estudio del tema y preparación del examen parcial |
Total de Horas: 4.
Capítulo 5: Técnicas de Análisis
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
11-13 | 2 | 3 | Análisis Cualitativo y Cuantitativo | Familiaridad | 1 Cap. 8 |
13-15 | 2 | 3 | Minería de Datos | Familiaridad | 1 Cap. 8 |
15-17 | 2 | 3 | Análisis Estadístico | Familiaridad | 1 Cap. 8 |
17-19 | 2 | 3 | Aprendizaje de Máquina | Familiaridad | 1 Cap. 8 |
Total de Horas: 20.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
11-19 | 8 | Estudio del tema y preparación del examen parcial | |
11-19 | 6 | Tarea | |
11-19 | 4 | Proyecto: aplicación de una técnica |
Total de Horas: 18.
Capítulo 6: Plataformas de procesamiento
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
19-22 | 4 | 4 | Hadoop | Uso | 4; 2 Cap. 4; |
23 | 2 | 1 | HBASE | Familiaridad | 2 Cap. 6 |
24,25 | 2 | 1 | HIVE | Familiaridad | 2 Cap. 6 |
25-27 | 3 | 2 | Cloudera | Familiaridad | |
27-30 | 4 | 4 | Apache Spark | Uso | 5; 2 Cap. 7 |
Total de Horas: 27.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
19-30 | 12 | Proyecto: Aplicación de un modelo de procesamiento a un problema | 2 cap. 4-7 |
Total de Horas: 12.
Capítulo 7: Visualización de datos
Sesión | Horas teóricas | Prácticas acompañadas | Temas | Profundidad | Bibliografía |
---|---|---|---|---|---|
31,32 | 3 | Estrategia de visualización de grandes volúmenes de información | Familiaridad |
Total de Horas: 3.
Sesión | Horas de trabajo independiente | Temas | Bibliografía |
---|---|---|---|
31,32 | 4 | Tarea |
Total de Horas: 4.
Uso de material en exámenes
No está permitido.
Asistencia
Obligatoria.
Bibliografía
-
T. Erl y P. Buhler. Big Data Fundamentals: Concepts, Drivers & Techniques. Prentice Hall, 1st. Ed., 2016.
-
A. Maheshwari. Big Data Essentials. Kindle Edition, 2016.
-
N. Marz y J. Warren. Big Data: Principles and best practices of scalable real time data systems. Manning, 1st Ed., 2015.
-
T. White. Hadoop: the definitive guide. O’Reilly Media, 4th Ed., 2015.
-
H. Karau, A. Konwinski, P. Wendell y M. Zaharia. Learning Spark: Lightning-Fast Big Data Analysis. O’Reilly, 1st Ed., 2015.
Instalaciones
Salón de clase con computador y proyector. Laboratorio de Ingeniería de Sistemas y Computación.