Para impulsar la toma de decisiones basada en datos, las organizaciones mexicanas pueden aprovechar la nueva región de AWS en México y las capacidades analíticas de Power BI.
Mediante esta guía diseñada por ExecuTrain, abordaremos cómo diseñar un lago de datos en Amazon S3, optimizar archivos en formato Parquet, ejecutar consultas con Amazon Athena y, finalmente, conectar Power BI para visualizar insights de forma interactiva y segura.
ExecuTrain es líder mundial en capacitación y consultoría en tecnologías de la información, con más de 76 000 profesionales entrenados en México y presencia en más de 25 países.
Su objetivo con esta guia, es que las empresas mexicanas aprovechen la nueva infraestructura de AWS anunciada el 26 de febrero de 2024 y en funcionamiento a inicios de 2025, la cual brinda baja latencia y almacenamiento de datos dentro del territorio nacional.
De este modo, podrás cumplir con los requisitos de residencia de datos establecidos por la CNBV y acelerar tus proyectos de big data.
Diseño de la arquitectura del lago de datos
Para gestionar grandes volúmenes de información y prepararla para análisis en tiempo real o batch, ExecuTrain propone la siguiente arquitectura:
Ingesta de datos
- Transaccional: utiliza AWS DMS con CDC para replicar cambios desde bases como MySQL, SQL Server o PostgreSQL.
- Sistemas de archivo: recurre a AWS DataSync para migrar archivos locales hacia Amazon S3 de forma segura y eficiente.
Catálogo y metadatos
Centraliza esquemas y metadatos en AWS Glue Data Catalog, ya sea mediante definición manual o Crawlers automáticos, facilitando el descubrimiento.
Seguridad y gobernanza
En el contexto financiero mexicano, el cumplimiento de la Ley de Instituciones de Crédito, la Ley del Mercado de Valores y la Ley para Regular las Instituciones de Tecnología Financiera exige una gestión rigurosa de permisos, auditorías y residencia de datos.
AWS Lake Formation es entonces una opción para implementar un modelo de seguridad de datos centralizado y granular. Con Lake Formation, defines blueprints (plantillas) de acceso que agrupan permisos sobre bases de datos, tablas o columnas, y puedes aplicar políticas basadas en atributos de usuario (Attribute-Based Access Control, ABAC).
Por ejemplo, un analista de riesgos puede ver únicamente las columnas relacionadas con montos y patrones de transacción, mientras que un auditor interno tiene permisos de solo lectura sobre todas las tablas y vistas de logs.
Para complementar, AWS Identity and Access Management (IAM) gestiona la autenticación y los roles con principle of least privilege.
Se recomienda emplear roles de servicio para Glue, Athena y Lambda, cada uno con políticas acotadas a las acciones estrictamente necesarias (por ejemplo, glue:GetTable, s3:GetObject o athena:StartQueryExecution). De esta forma, se reduce la superficie de ataque y se facilita la revisión periódica de permisos.
La cifrado de datos en reposo y en tránsito es otra capa esencial. En S3, habilita el cifrado SSE-KMS con claves administradas por AWS Key Management Service, definiendo políticas de uso de claves que incluyan rotación automática cada 30 días y registro de uso en CloudTrail.
Para datos en movimiento, utiliza TLS en endpoints de Athena y en la configuración de los controladores ODBC/ODBC de Power BI, garantizando que ninguna información sensible quede expuesta en la red.
La auditoría se implementa a través de AWS CloudTrail y AWS CloudWatch. CloudTrail registra cada llamada a la API —incluyendo lecturas y escrituras en S3, consultas en Athena y cambios en Glue—, guardando eventos en un bucket dedicado y enviando logs a CloudWatch Logs.
Sobre estos registros, define métricas y alarmas (por ejemplo, consultas fallidas o accesos negados) para recibir notificaciones inmediatas ante comportamientos anómalos. Asimismo, CloudWatch Dashboards concentrará indicadores de cumplimiento como número de roles activos, estado de rotación de claves y latencia de consultas, facilitando los reportes de auditoría ante la CNBV y otras autoridades.
Con esta estrategia de seguridad y gobernanza, tu lago de datos no solo será escalable y eficiente, sino también un entorno de confianza para el análisis de fraudes y otros casos críticos del sector financiero.
Transformación y optimización
- Emplea AWS Glue ETL basado en Apache Spark para limpiar y preparar datos en paralelo.
- Convierte tus datasets a formatos columnares como Apache Parquet, reduciendo costos de almacenamiento y acelerando las consultas analíticas.
Consulta bajo demanda
Configura Amazon Athena sobre los datos optimizados en S3 para ejecutar SQL estándar sin necesidad de clústeres dedicados.
Visualización y consumo
Conecta Power BI Desktop a Amazon Athena usando el conector nativo, explorando tus esquemas y construyendo dashboards interactivos.
Paso 1: Preparativos previos
Antes de iniciar, asegúrate de contar con:
- Una cuenta AWS con permisos para S3, Glue, Lake Formation y Athena.
- Parámetros de residencia de datos habilitados en la región AWS México.
- Power BI Desktop instalado (versión reciente).
- Amazon Athena ODBC Driversyss#4sde#4¥Ssnecesario, un#gatewaSsy si s •ss4¥puS#rlicar al servicio Power BI rr la nube.
Paso 2: Creación del bucket y organización de datos en S3
Para sentar las bases de tu lago de datos:Re#
- Accede a la consola de Amazon S3 y crea un bucket nombrado según tu convención (por ejemplo, lago-datos-ejemplo).
- Define una estructura de carpetas por dominio o sistema de origen (transaccional/, logs/,rrssrterceros/, etc.).
- Aplica políticas de ciclo de vida para mover objetos a almacenamientos de menor costo tras un periodo de inactividad.
- De esta forma, mantienes tus datos organizados y controlas el coste de almacenamiento de manera automática.
Centralizar y gestionar los metadatos es vital para que los equipos de datos puedan descubrir, entender y confiar en la información almacenada.
AWS Glue Data Catalog actúa como un catálogo de metadatos unificado, indexando tablas, particiones, esquemas y relaciones entre datasets. Para iniciar su implementación, lo primero es definir una base de datos lógica en Glue, que agrupe los conjuntos de datos de un mismo dominio (por ejemplo, transaccional, logs de aplicaciones o datos de terceros).
Esta base de datos en Glue no almacena datos por sí misma, sino referencias a ubicaciones en S3 y descripciones de columnas, formatos y particiones.
El siguiente paso consiste en configurar AWS Glue Crawlers: agentes que exploran automáticamente los buckets indicados, infieren el esquema (tipos de datos, particiones basadas en carpetas) y actualizan el catálogo sin intervención manual.
Al programar crawlers periódicos (por ejemplo, cada hora o tras procesos de ingesta), te aseguras de que cualquier cambio en los datos —columnas nuevas, formatos ajustados— se refleje de inmediato en el catálogo.
Para entornos de alta frecuencia, conviene segmentar los crawlers por dominio y procesar sólo las ubicaciones donde haya habido actualizaciones, reduciendo el tiempo de exploración y el coste asociado.
Más allá del descubrimiento, el Data Catalog permite documentar cada tabla con descripciones, propietarios, etiquetas (tags) y políticas de acceso, lo cual facilita la colaboración entre equipos de analistas, científicos de datos y gobernanza TI.
Con Glue Data Catalog integrado en AWS Lake Formation, es posible aplicar políticas de acceso directamente sobre el catálogo: restringir qué usuarios o roles pueden ver determinadas tablas, columnas o incluso filas según criterios dinámicos (row-level filtering).
Además, Glue soporta la versión de esquemas, de modo que se pueda auditar la evolución de un dataset y, de ser necesario, retroceder a una versión anterior sin perder coherencia.
Es así que, al utilizar el catálogo como fuente única, servicios como Athena, Redshift Spectrum y EMR leen de manera transparente los metadatos, eliminando la duplicación de definiciones y asegurando que cualquier consulta SQL respete el esquema más reciente.
Esto impulsa la agilidad de los equipos, que pueden construir pipelines de análisis y reportes con plena confianza en la estructura y calidad de los datos.
Paso 4:
Optimización de datos en formato ParquetAntes de consultar, conviene transformar tus datos a un formato columnar:
- Crea un job de AWS Glue ETL que lea tus tablas orígenes en S3 (por ejemplo, JSON o CSV).
- En el script generado, especifica el formato de destino como Parquet y habilita particiones según fechas o campos relevantes.
- Ejecuta el job y valida que los archivos .parquet se generen correctamente en la nueva ubicación.
- El uso de Parquet reduce el tiempo de las consultas y el volumen de datos leídos desde S3.
Paso 5:
Consultas con Amazon AthenaUna vez optimizados los datos:
- Abre Amazon Athena en la consola AWS y selecciona la base de datos creada en Glue.
- Verifica que las tablas aparezcan y ejecuta consultas SQL estándar para explorar tus datos.
- Ajusta particiones y estadísticas de tabla con comandos como MSCK REPAIR
Athena te cobrará únicamente por la cantidad de datos escaneados, por lo que Parquet y particiones resultan clave para el ahorro.
Paso 6:
Instalación y configuración del conector en Power BIPara enlazar Power BI con Athena:
- Instala el ODBC Driver de Amazon Athena según tu sistema operativo.
- Configura un DSN en Windows con las credenciales IAM o roles necesarios para acceder a Athena.
- Abre Power BI Desktop, dirígete a Obtener datos, busca “Athena” y selecciona el conector nativo de Amazon Athena.
- En la ventana de conexión, elige tu DSN y define el Modo de conectividad:
- Import: descarga un subconjunto de datos a tu equipo.
- DirectQuery: consulta directamente en Athena al interactuar con el reporte.
De esta manera, podrás decidir entre performance local o siempre tener datos al día.
Paso 7:
Exploración y construcción de reportesCon la conexión establecida:
- Navega por el Navegador de Power BI y selecciona las tablas o vistas que desees analizar.
- Carga los campos y modela relaciones si usas múltiples tablas.
- Emplea DAX para crear medidas y KPIs centrados en tus objetivos: por ejemplo, volumen de transacciones por región, detección de patrones de fraude o alertas de incumplimiento regulatorio.
- Diseña visualizaciones interactivas (gráficas de líneas, matrices y mapas) que permitan filtrar por periodos y segmentos.
Así, tus usuarios de negocio tendrán dashboards claros y accionables.
Paso 8: Publicación y actualización en Power BI Service
Para compartir insights en toda la organización:
- Publica tu reporte en el servicio de Power BI desde Power BI Desktop.
- Si elegiste DirectQuery, instala un gateway local en una instancia EC2 dentro de tu VPC, siguiendo las recomendaciones de AWS para redes y seguridad.
- Configura actualizaciones programadas o bajo demanda para tus datasets, garantizando que los dashboards reflejen los últimos datos de Athena.
Con esto, alcanzarás alta disponibilidad y gobernanza de tus informes.
Siguiendo estos pasos, habrás construido una solución integral que:
- Cumple con la residencia de datos dentro de México, alineada con la CNBV.
- Centraliza fuentes diversas usando un lago de datos escalable en Amazon S3 y Glue.
- Optimiza costos con formatos columnares y políticas de ciclo de vida.
- Garantiza seguridad granular mediante Lake Formation e IAM.
- Agiliza el análisis gracias a Amazon Athena y Power BI sin infraestructuras de clúster.
- Facilita la detección de fraudes al ofrecer consultas bajo demanda y visualizaciones potentes.
ExecuTrain te acompaña en cada etapa: desde la definición de arquitectura hasta la capacitación de tu equipo en Power BI y AWS.
Con su experiencia de más de 29 años en Jalisco y reconocimiento global, ExecuTrain esta en capacidad de ayudarte a impulsar el talento tecnológico de tu organización y sacar el máximo provecho de los lago de datos en la recien creada región AWS México.