Azure Databricks: de básico a experto

Este curso de Azure Databricks está diseñado para profesionales, desarrolladores y analistas de datos que desean adquirir habilidades prácticas para trabajar con grandes volúmenes de datos en la nube utilizando la plataforma Databricks y el motor Apache Spark. El curso está dirigido a:
- Ingenieros de datos que desean optimizar sus flujos de trabajo de ETL (Extracción, Transformación y Carga) mediante el uso de Delta Lake y herramientas de streaming de datos.
- Científicos de datos que buscan integrar Databricks en sus proyectos de análisis y machine learning, aplicando modelos de datos en entornos escalables y colaborativos.
- Analistas de datos y BI (Business Intelligence) que necesitan manipular grandes volúmenes de datos, realizar consultas avanzadas y crear visualizaciones dinámicas.
- Profesionales de TI y arquitectos de soluciones en la nube que gestionan infraestructuras de datos y desean aprender a implementar y optimizar cargas de trabajo en entornos basados en la nube de Microsoft Azure.
- Estudiantes o recién graduados en áreas de ciencia de datos, computación o ingeniería de software que buscan adentrarse en el análisis de datos con herramientas líderes en la industria.
Este curso es adecuado tanto para quienes tienen experiencia previa en análisis de datos como para aquellos que deseen aprender desde los conceptos básicos hasta los niveles avanzados de uso de Databricks en entornos profesionales.
- Es recomendable tener una base sólida en al menos un lenguaje de programación como Python, SQL o Scala, ya que estos lenguajes se utilizarán para interactuar con Databricks y Apache Spark
- Conocimientos previos en análisis de datos y procesamiento de grandes volúmenes de datos son útiles, aunque no indispensables Se espera que los participantes tengan una comprensión básica de conceptos como DataFrames, bases de datos y consultas SQL
- Aunque no es obligatorio, tener experiencia previa con servicios en la nube preferiblemente Azure facilitará la comprensión de los conceptos relacionados con la infraestructura y la gestión de recursos en la nube
- Es útil tener conocimientos previos de procesos de ETL Extracción, Transformación y Carga para entender cómo se implementan estos flujos de trabajo en Databricks
- Los participantes deben tener acceso a una suscripción de Azure para poder crear y gestionar un espacio de trabajo en Azure Databricks Se pueden utilizar créditos gratuitos si se dispone de una cuenta de prueba de Azure
- No es imprescindible, pero un conocimiento previo de Apache Spark facilitará el aprendizaje en la manipulación de grandes conjuntos de datos y en la optimización de flujos de trabajo en Databricks
Recursos recomendados antes de comenzar el curso
- Familiarizarse con Python o SQL a través de cursos introductorios
- Realizar un curso básico sobre Azure si no se tiene experiencia con esta plataforma
- Revisar la documentación básica de Apache Spark para entender cómo se gestiona y procesa la información a gran escala
Estos requisitos asegurarán que los participantes puedan seguir el contenido del curso de manera efectiva y saquen el máximo provecho de las herramientas y técnicas enseñadas
-
Enfoque práctico: el curso se centra en enseñar a los participantes cómo utilizar Azure Databricks y Apache Spark mediante ejercicios prácticos, permitiéndoles aplicar directamente lo aprendido a la manipulación y análisis de grandes volúmenes de datos.
-
Cobertura integral: abarca desde los fundamentos de Databricks y Spark hasta el uso avanzado de herramientas como Delta Lake, optimización de flujos ETL y técnicas de análisis de datos en entornos distribuidos.
-
Formación interactiva: diseñado para fomentar la participación activa, incluye actividades colaborativas y ejemplos prácticos que reflejan escenarios reales en la gestión de datos y machine learning.
-
Actualización constante: el curso se adapta a las innovaciones en Databricks y el ecosistema de Azure, incorporando las últimas funcionalidades y mejores prácticas para que los participantes estén al día en un entorno dinámico.
-
Proyección profesional: proporciona habilidades clave en ingeniería de datos y análisis, capacitándote para resolver problemas empresariales complejos y manejar infraestructuras modernas en la nube.
-
Proyecto final: al finalizar, los participantes desarrollarán un proyecto práctico que demuestra su capacidad para implementar soluciones de análisis de datos utilizando Databricks en entornos empresariales.
Este curso de Azure Databricks está diseñado para profesionales, desarrolladores y analistas de datos que desean adquirir habilidades prácticas para trabajar con grandes volúmenes de datos en la nube utilizando la plataforma Databricks y el motor Apache Spark. El curso está dirigido a:
- Ingenieros de datos que desean optimizar sus flujos de trabajo de ETL (Extracción, Transformación y Carga) mediante el uso de Delta Lake y herramientas de streaming de datos.
- Científicos de datos que buscan integrar Databricks en sus proyectos de análisis y machine learning, aplicando modelos de datos en entornos escalables y colaborativos.
- Analistas de datos y BI (Business Intelligence) que necesitan manipular grandes volúmenes de datos, realizar consultas avanzadas y crear visualizaciones dinámicas.
- Profesionales de TI y arquitectos de soluciones en la nube que gestionan infraestructuras de datos y desean aprender a implementar y optimizar cargas de trabajo en entornos basados en la nube de Microsoft Azure.
- Estudiantes o recién graduados en áreas de ciencia de datos, computación o ingeniería de software que buscan adentrarse en el análisis de datos con herramientas líderes en la industria.
Este curso es adecuado tanto para quienes tienen experiencia previa en análisis de datos como para aquellos que deseen aprender desde los conceptos básicos hasta los niveles avanzados de uso de Databricks en entornos profesionales.
Módulo Básico (8-10 horas)
Objetivo: Proveer una introducción a Azure Databricks y familiarizar a los estudiantes con el entorno, la creación de cuadernos y el manejo de datos básicos.
1.1 Introducción a Azure Databricks
- ¿Qué es Azure Databricks?
- Arquitectura general: Clústeres y cuadernos
- Integraciones con otros servicios de Azure (Data Lake, Synapse, Machine Learning, etc.)
1.2 Creación de un entorno de trabajo
- Creación de clústeres en Azure Databricks
- Configuración de recursos de proceso
1.3 Cuadernos de Databricks
- Creación y configuración de cuadernos
- Uso de lenguajes: Python, SQL, Scala, R
- Introducción al uso de Spark en cuadernos
1.4 Importación y visualización de datos básicos
- Carga de archivos CSV en un DataFrame
- Uso de la función display() para visualizar datos
- Creación de visualizaciones simples (gráficos de barras y nube de palabras)
1.5 Consultas básicas en Databricks
- Consultar tablas existentes en Unity Catalog
- Manipulación básica de datos con SQL
Módulo Intermedio (10-12 horas)
Objetivo: Expandir los conocimientos de los estudiantes con operaciones avanzadas en Databricks, como la ingestión de datos, limpieza y uso de funciones de análisis más complejas.
2.1 Ingestión de datos desde fuentes externas
- Lectura y escritura de datos desde Azure Data Lake Storage (ADLS) y Azure Blob Storage
- Uso de Auto Loader para la ingesta incremental en Delta Lake
2.2 Limpieza y mejora de datos
- Uso de Spark para manipulación de datos
- Transformaciones en DataFrames: cambio de tipos, renombrado de columnas y formateo
2.3 Tablas en Databricks
- Creación de tablas desde cuadernos
- Gestión y permisos en Unity Catalog
- Uso de tablas en análisis
2.4 Tablas Delta y Delta Lake
- Introducción a Delta Lake y el formato Delta
- Creación y gestión de tablas Delta
2.5 Análisis de datos con cuadernos
- Agrupación de datos por categorías
- Creación de gráficos avanzados desde DataFrames
Módulo Avanzado (12-14 horas)
Objetivo: capacitar a los estudiantes para desarrollar canalizaciones de datos de extremo a extremo, implementar cargas de trabajo de producción y optimizar el rendimiento en Azure Databricks.
3.1 Procesamiento avanzado de datos
- Configuración de clústeres optimizados para cargas de trabajo de gran escala
- Uso de Auto Loader y streaming con Spark
3.2 Canalizaciones de datos ETL
- Creación de una canalización de datos completa (ingestión, transformación, análisis)
- Ejemplo práctico con el conjunto de datos “Million Song Dataset”
3.3 Automatización y programación de trabajos
- Automatización de flujos de trabajo con Databricks Jobs
- Programación de tareas repetitivas y cargas de trabajo
3.4 Optimización y mejores prácticas
- Optimización del rendimiento de consultas y trabajos
- Manejo eficiente de recursos en Databricks
3.5 Integración con otros servicios de Azure
- Integración con Azure Machine Learning y Synapse Analytics
- Implementación de modelos de machine learning en cuadernos de Databricks