Amazon Athena: el secreto de la gestión de datos de Codeoscopic

Amazon Athena: el secreto de la gestión de datos de Codeoscopic

Amazon Athena permite realizar consultas SQL sobre ficheros. Codeoscopic lo emplea para acceder a millones de datos en menos de 10 segundos.

En Codeoscopic se generan cientos de miles de datos cada día que atraviesan un proceso de limpieza hasta que se convierten en información valiosa. El objetivo era acceder a dichos datos en tiempo récord.

Cómo acceder a millones de datos en segundos

Cuando la tecnológica se planteó este reto, encontró la respuesta en Amazon Athena. Es la herramienta sobre la que se cimentan algunos módulos como el de perfiles de riesgo en su aplicación Versus Analytics. Sin embargo, por sí sola, Athena no ofrecía el rendimiento excepcional que buscaban para la aplicación.

El objetivo: recuperar la emisión de una compañía concreta en un mar de más de 50 millones de datos

Para iniciar el proceso, ordenaron de manera inteligente su data lake, dividiendo los datos en particiones por ramos. Así, si la emisión fuese del ramo de hogar, Athena iría a buscarla a la partición de hogar, ignorando millones de datos de otros ramos.

El siguiente paso para optimizar el sistema y agilizar las consultas fue modificar el formato del sistema de ficheros. De tal forma que, al hacer una consulta, Athena escanease únicamente columnas relevantes. Lograron así que la aplicación realice consultas sobre millones de datos en menos de 10 segundos.

También te puede interesar:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *