Alejandro Mora Sáez
Ingeniero y analista de datos
- Ingesta de datos, desde cualquier origen y en cualquier formato. Cargas incrementales, cargas completas y en streaming.
- Transformación y modelado, transformo la información original para mejorar o enriquecer su análisis, eliminar los datos que no aportan valor analítico y optimizo su formato para mejorar el rendimiento de los motores tabulares que nutrirán informes y dashboards.
- Almacenamiento y procesamiento de los datos; eficiente, escalable y seguro.
- Desarrollo de informes y aplicaciones en Power BI; dinámicos, optimizados y personalizados.
Formación
Mis habilidades
Extracción e integracion
Extracción e integración de los datos desde cualquier fuente, en cualquier formato (Bases de datos, APIs, archivos de texto plano, libros de Excel, XML...) y en cualquier enfoque (Streaming, carga incremental, full load...)
Limpieza y enriquecimiento
Identifico y corrijo inconsistencias, errores y valores atípicos en los conjuntos de datos además de normalizar, deduplicar y, si es necesario, añadir información adicional a los datos para enriquecer su posterior análisis.
Modelado
Comprendo las necesidades y objetivos del negocio para desarrollar a medida estructuras de datos optimizadas para nutrir los motores analíticos mediante los que generar informes dinámicos.
Visualización
Creo informes interactivos con métricas y visualizaciones que dan respuesta a las preguntas de negocio y genero aplicaciones para poder compartir estos informes de manera segura y ordenada a los usuarios de la orgfanización.
EDA y selección de modelos de ML
Identificación del problema, análisis exploratorio de los datos, feature engineering, selección y validación del modelo y ajuste de hiperparámetros en base a los resultados obtenidos en las métricas de evaluación específicas del dataset de entrenamiento.
Implementación y mantenimiento de modelos de ML
Uso de modelos de ML entrenados para hacer predicciones o tomar decisiones en un entorno de producción con un monitoreo contínuo, es decir, a medida que se reciben nuevos datos se revisan las predicciones y se realizan ajustes si es necesario.
Sobre mí
Durante mi etapa escolar, las matemáticas siempre fueron mi asignatura favorita. El proceso de utilizar la lógica para interpretar y aplicar fórmulas adecuadas con el fin de resolver problemas específicos me resultaba muy entretenido. De hecho, veía los ejercicios y los problemas matemáticos como un juego, más que como un trabajo.
A día de hoy, encontrar la solución más eficiente para extraer, almacenar, limpiar o modelar los datos con una estrcutura optimizada y adaptada al contexto de la empresa me transmite una sensación similar a lo que sentía de pequeño al hacer esos ejercicios.
Este descubrimiento me llevó a dar un paso decidido en mi carrera profesional, y iniciar mi formación en el mundo de los datos. En este periodo de formación tan enriquecedor, he adquirido habilidades sólidas en el desarrollo de informes y procesos ETL 100% adaptados a las necesidades de la empresa.
❝ Ver el trabajo como entretenimiento❞
Herramientas
SSMS
Leer más...
SQL Server Management Studio (SSMS) es esencial en mi día a día para administrar bases de datos SQL Server con eficacia. Su interfaz intuitiva simplifica la creación, edición y eliminación de tablas, columnas y usuarios. Además, su integración perfecta con las herramientas de Microsoft, como por ejemplo Visual Studio, facilita en gran medida el desarrollo de procesos ETL en arquitecturas on-premise.
Power BI
Leer más...
La herramienta de análisis de datos por excelencia por su amplia variedad de visualizaciones y por su capacidad de compartir informes y dashboards. Además incluye Power Query para transformar y modelar la información y tiene la capacidad de conectarse a prácticamente cualquier origen. A día de hoy, todos los proyectos en los que trabajo incluyen esta herramienta como plataforma de visualización de la información.
Excel
Leer más...
Aunque sigue siendo una herramienta con un gran potencial para el análisis de datos yo personalmente la utilizo para el preprocesamiento en bruto de los datos. Incluye una amplia gama de funcionalidades que permiten manipular y transformar los datos y representarlos en forma de gráficos y tablas.
Visual Studio
Leer más...
Visual Studio facilita la construcción de soluciones ETL robustas y escalables mediante una interfaz gráfica muy intuitiva. Su gran integración con el resto de las herramientas de Microsoft la convierten en la mejor opción para la integración y transformación de los datos en arquitecturas on-premise.
Visual Studio Code
Leer más...
Tanto para el desarrollo Python como para HTML o CSS, es mi editor de código preferido ya que es extremadamente versátil. Su amplia gama de extensiones instalables permite conectarse a cualquier carpeta y desarrollar tanto scripts convencionales de python, por ejemplo, como cuadernos de Jupyter (.ipynb) esenciales para el procesamiento de los datos.
Jupyter Notebook
Leer más...
Es la alternativa a VS Studio Code para desarrollar notebooks .ipynb especialmente útiles para la transformación y análisis de datos. Jupyter Notebook ofrece un enfoque más interactivo y documentado para el desarrollo de archivos .ipynb, especialmente en el contexto del análisis de datos y la exploración de datos interactiva.
Azure SQL
Leer más...
Utilizo Azure SQL en contextos en los que se requiere una base de datos relacional con un esquema definido, consultas SQL y soporte para transacciones; o en los casos en los que necesito un alto rendimiento y baja latencia para cargas de trabajo transaccionales. Es la proyección del SQL Server convencional con el valor añadido de la escalabilidad y seguridad que aporta Azure.
Azure Data Lake
Leer más...
Esencial para gestionar grandes volúmenes de datos de forma eficiente. ADLS permite almacenar datos estructurados, semi-estructurados y no estructurados en un mismo repositorio común y fácilmente accesible. Además, su perfecta integración con herramientas como Azure Synapse Analytics y Azure Databricks simplifica el desarrollo de pipelines ETL complejos.
Azure Synapse Analytics
Leer más...
La herramienta fundamental para el desarrollo ETL en Azure. Permite conectarse a cualquier origen, desarrollar ETL mediante canalizaciones con una interfaz similar a la de SSIS, con la capacidad añadida de utilizar clústeres de Apache Spark o SQL para el procesamiento de los datos en paralelo. Además la funcionalidad de SQL Serverless permite consultar cualquier tipo de archivo almacenado en el Data Lake utilizando consultas SQL.
Azure Databricks
Leer más...
Azure Databricks utiliza una plataforma colaborativa basada en clústeres de procesamiento distribuído de Apache Spark que permite desarrollar procesos ETL sobre grandes volúmenes de datos de manera eficiente. Su integración fluida con Azure Synapse Analytics y Azure Data Lake Storage hacen que sea la opción perfecta para proyectos de datos complejos y análisis en profundidad de grandes volúmenes de información.
Azure ML
Leer más...
Azure Machine Learning es una potente plataforma en la nube que simplifica el ciclo de vida del aprendizaje automático. Ofrece herramientas para la preparación de datos, desarrollo de modelos y despliegue eficiente. Con funciones como automl, facilita la creación de modelos robustos, y su integración con otros servicios de Azure permite escalabilidad y gestión efectiva de recursos.
Azure AI Services
Leer más...
Azure Cognitive Services es una suite de servicios de inteligencia artificial en la nube que brinda capacidades de visión, lenguaje, voz y búsqueda. Simplifica la incorporación de IA en aplicaciones mediante APIs preentrenadas, permitiendo funciones como reconocimiento facial, traducción de texto y generación de voz de manera eficiente y accesible.
Ingeniería de datos
Gestión de bases de datos relacionales y desarrollo ETL (Extracción, Transformación y Carga de datos) on-premise y en Azure. Con herramientas como SSIS, Azure Data Factory, Azure Synapse Anlytics y próximamente en Fabric
Arquitectura Lakehouse end to end
- Azure Data Lake Storage
- Azure Synapse Analytics
- Apache Spark
Análisis de datos
Entender las necesidades del negocio y limpiar, enriquecer y modelar los datos para optimizar el rendimiento de la información en el motor analítico que nutrirá informes interactivos, personalizados disponibles las 24 horas del día para cualquier usuario de negocio.
Ciencia de datos
Desarrollo de modelos de Machine Learning convencionales como por ejemplo modelos de clasificación, regresión, clustering... y desarrollo de modelos de Deep Learning y LLM en Azure. (Azure ML y Azure IA Services)
Programación Python
Desarrollo scripts y aplicaciones prácticas para automatizar procesos rutinarios. Además tengo algo de experiencia programando a nivel básico redes neuronales y módulos de visión artificial y OCR. Domino también el uso de pandas y pyspark en cuadernos .ipynb para ETL y ciencia de datos.
Diseño y arquitectura web
Sin conocimientos avanzados de frontend ni backend, me busco la vida para ir añadiendo funcionalidades a mis sitios web mientras voy aprendiendo poco a poco, sin ser mi principal prioridad, algo de HTML, CSS y Javascript. Tengo también algunas nociones de SEO y diseño.