Procesamiento de Grandes Volúmenes de Datos

Información Básica

  • Créditos: 3
  • Horas de trabajo acompañado: 5 / semana (3 horas clase, 2 horas taller)
  • Horas de trabajo independiente: 4 / semana
  • Pre-requisitos: Programación Paralela, Gestión y Modelado de Datos
  • Tipo de curso: Énfasis

Descripción del Curso

Las tecnologías tradicionales de bases de datos no son adecuadas para el almacenamiento, procesamiento y análisis de datos en grandes volúmenes y complejidad. En este curso se estudian las tecnologías que soportan el almacenamiento y procesamiento a gran escala de datos provenientes de diversas fuentes de información. Se estudiarán los pasos del proceso para abordar problemas en Big-Data, y las tecnologías que soportan dicho proceso.

Objetivos

Al finalizar el curso los participantes podrán:

  1. Describir el contexto y las características del Big-Data y dar ejemplos de problemas en dicho contexto.
  2. Identificar los conceptos fundamentales de Big Data y Ciencia de Datos.
  3. Evaluar las implicaciones sociales de la aplicación del análisis de datos de diversas fuentes y a gran escala.
  4. Aplicar estrategias y el proceso de la ciencia de datos para dar solución a problemas de Big-Data.
  5. Usar los modelos de procesamiento, técnicas de almacenamiento y plataformas de procesamiento que se estudian en el curso para implementar soluciones básicas a problemas de Big-Data.
  6. Describir la importancia de los métodos de análisis de datos y los casos en los cuales se aplican. Utilizar estos métodos para resolver problemas sencillos.
  7. Explicar las ventajas de usar diversas técnicas de visualización de grandes volúmenes de datos, aplicándolas según el problema que se está analizando.

Se desarrollan competencias en

  1. Map Reduce (básico)
  2. Cloud Data Flow (básico)
  3. Hadoop (básico)
  4. Apache Spark (básico)

Contenido

Capítulo 1: Introducción al Big Data

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
1 2 Conceptos básicos: La ciencia de datos (Data Science), las V’s, las fuentes de datos Familiaridad 1 Cap. 1; 2 Cap. 1
2 2 Problemas de Big Data Familiaridad 2 Cap. 2
2,3 2 Aplicaciones y sistemas Familiaridad 1 Cap. 2; 2 Cap. 2
3,4 1 1 Impacto del Big Data en la sociedad Familiaridad

Total de Horas: 8.

Sesión Horas de trabajo independiente Temas Bibliografía
1-3 6 Estudio del tema y preparación del examen parcial 1 cap. 1; 2 cap. 1,2
3,4 6 Tarea: Impacto del Big Data

Total de Horas: 12.

Capítulo 2: La Ciencia de Datos

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
4 1 Estrategia de Big Data Familiaridad
5 3 El Proceso de la Ciencia de Datos: Adquirir, explorar, preprocesar y analizar datos, comunicar resultados, tomar acciones Familiaridad

Total de Horas: 4.

Sesión Horas de trabajo independiente Temas Bibliografía
4,5 4 Estudio del tema y preparación del examen parcial 1 cap. 1; 2 cap. 1,2

Total de Horas: 4.

Capítulo 3: Modelos de Procesamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
6,7 1 3 Map Reduce Uso 2 Cap. 5
7-9 3 3 Cloud Data Flow Familiaridad

Total de Horas: 10.

Sesión Horas de trabajo independiente Temas Bibliografía
6-9 4 Proyecto: Aplicación de un modelo de procesamiento a un poblema 2 cap. 5

Total de Horas: 4.

Capítulo 4: Tecnología de Almacenamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
10 2 HDFS (Hadoop Distributed File System) Familiaridad
11 2 GFS (Google File System) Familiaridad

Total de Horas: 4.

Sesión Horas de trabajo independiente Temas Bibliografía
10-11 4 Estudio del tema y preparación del examen parcial

Total de Horas: 4.

Capítulo 5: Técnicas de Análisis

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
11-13 2 3 Análisis Cualitativo y Cuantitativo Familiaridad 1 Cap. 8
13-15 2 3 Minería de Datos Familiaridad 1 Cap. 8
15-17 2 3 Análisis Estadístico Familiaridad 1 Cap. 8
17-19 2 3 Aprendizaje de Máquina Familiaridad 1 Cap. 8

Total de Horas: 20.

Sesión Horas de trabajo independiente Temas Bibliografía
11-19 8 Estudio del tema y preparación del examen parcial
11-19 6 Tarea
11-19 4 Proyecto: aplicación de una técnica

Total de Horas: 18.

Capítulo 6: Plataformas de procesamiento

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
19-22 4 4 Hadoop Uso 4; 2 Cap. 4;
23 2 1 HBASE Familiaridad 2 Cap. 6
24,25 2 1 HIVE Familiaridad 2 Cap. 6
25-27 3 2 Cloudera Familiaridad
27-30 4 4 Apache Spark Uso 5; 2 Cap. 7

Total de Horas: 27.

Sesión Horas de trabajo independiente Temas Bibliografía
19-30 12 Proyecto: Aplicación de un modelo de procesamiento a un problema 2 cap. 4-7

Total de Horas: 12.

Capítulo 7: Visualización de datos

Sesión Horas teóricas Prácticas acompañadas Temas Profundidad Bibliografía
31,32 3 Estrategia de visualización de grandes volúmenes de información Familiaridad

Total de Horas: 3.

Sesión Horas de trabajo independiente Temas Bibliografía
31,32 4 Tarea

Total de Horas: 4.

Uso de material en exámenes

No está permitido.

Asistencia

Obligatoria.

Bibliografía

  1. T. Erl y P. Buhler. Big Data Fundamentals: Concepts, Drivers & Techniques. Prentice Hall, 1st. Ed., 2016.
  2. A. Maheshwari. Big Data Essentials. Kindle Edition, 2016.
  3. N. Marz y J. Warren. Big Data: Principles and best practices of scalable real time data systems. Manning, 1st Ed., 2015.
  4. T. White. Hadoop: the definitive guide. O’Reilly Media, 4th Ed., 2015.
  5. H. Karau, A. Konwinski, P. Wendell y M. Zaharia. Learning Spark: Lightning-Fast Big Data Analysis. O’Reilly, 1st Ed., 2015.

Instalaciones

Salón de clase con computador y proyector. Laboratorio de Ingeniería de Sistemas y Computación.

Material de este semestre