MasTraining

"Tu éxito profesional, es el nuestro"

Curso de Fundamentos de Big Data con MongoDB y Hadoop


Introducción

Big Data o Datos masivos es un concepto que hace referencia al almacenamiento de grandes cantidades de datos y a los procedimientos usados para encontrar patrones repetitivos dentro de esos datos. El fenómeno del Big Data también es llamado datos a gran escala. 

La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la recolección y el almacenamiento, búsqueda, compartición, análisis, y visualización. La tendencia a manipular enormes cantidades de datos se debe a la necesidad en muchos casos de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias, como los análisis de negocio, publicitarios, los datos de enfermedades infecciosas, el espionaje y seguimiento a la población o la lucha contra el crimen organizado.

Ante esta nueva realidad de la cantidad ingente de datos que se generan diariamente, muchas empresas y organizaciones necesitan utilizar estos volúmenes de información con el objetivo de mejorar las prestaciones de sus servicios o negocios, y para ello la tecnología Big Data permite capturar, almacenar y analizar toda esa información.

La tecnología Big Data maneja 3 dimensiones características fundamentales:

  • Volumen de datos 
  • Variedad de datos (estructurado, semiestructurados y no estructurados) 
  • Velocidad

Objetivos

Al finalizar este curso los alumnos podrán:

   · Conocer las características básicas de los escenarios Big Data y ser capaces de elegir qué tecnologías utilizar en cada caso.
   · Dominar las capacidades básicas de manejo de datos en MongoDB.
   · Ser capaz de diseñar el modelo de datos y la infraestructura de una solución Big Data basada en MongoDB.
   · Conocer el paradigma de programación y los componentes básicos de Hadoop.
   · Saber qué proyectos pertenecientes al ecosistema Hadoop utilizar para alcanzar la mejor solución para un problema dado.

Requisitos

Para entender mejor las características y capacidades de MongoDB se toman como referencia las de las bases de datos relacionales y el lenguaje SQL. Por esto es muy recomendable tener experiencia de trabajo con bases de datos relacionales, como por ejemplo SQL Server, Oracle, MySQL o PostgreSQL.

Por otro lado, para trabajar con Hadoop utilizaremos el lenguaje de programación Java, por lo que se recomienda tener experiencia con este lenguaje, o al menos con lenguajes similares como JavaScript, C# o C++ y nociones claras de programación orientada a objetos.

Duración

La duración del curso es de 20 horas lectivas presenciales.

Se imparte en tres días laborables completos seguidos, o en fin de semana, dos tardes de viernes más dos mañanas de sábado.

Consultar próximas fechas.

Profesorado

Disponemos de un equipo de instructores altamente calificados que combinan la formación con el desarrollo de su profesión como expertos en el ámbito de la consultoría. Son Profesionales certificados por los principales fabricantes y con alta capacidad para transferir los conceptos técnicos y metodológicos de modo ameno y sencillo.

Fechas y horario

Consultar próximas fechas.

Temario

1. Introducción a Big Data.

  1.1. Big Data como motor de evolución.
  1.2. Arquitectura y componentes.
  1.3. Tipos de tecnologías.
  1.4. Bases de datos NoSQL.
  1.5. Modelos de programación para Big Data.

2. Big Data Operacional con MongoDB.

  2.1. Introducción a MongoDB.
  2.2. Manejo básico de datos.

3. Agregación de datos en MongoDB.

  3.1. MapReduce.
  3.2. Aggregation Framework.

4. Arquitectura de una solución MongoDB.

  4.1. Uso de índices.
  4.2. Creación del modelo de datos.
  4.3. Replicación y distribución de datos.

5. Big Data Analítico con Hadoop.

  5.1. Introducción de Hadoop.
  5.2. Componentes.
  5.3. Sistema de ficheros distribuido.
  5.4. Gestor de recursos.
  5.5. Planificador de tareas.
  5.6. Casos de estudio.

6. Desarrollo con Hadoop básico.

  6.1. Configuración de un entorno.
  6.2. Creación y ejecución de tareas Map/Reduce.
  6.3. Interfaz para múltiples lenguajes.

7. Desarrollo con Hadoop de alto nivel.

  7.1. Interfaces de consulta de alto nivel.
  7.2. Programación basada en tuberías.
  7.3. Librerías de algoritmos.

8. Ecosistema de proyectos Hadoop.

  8.1. Bases de datos distribuidas.
  8.2. Comunicación con bases de datos relacionales.
  8.3. Alternativas al algoritmo Map / Redu.