Gestión de series de datos: cumpliendo con la necesidad de grandes análisis de secuencia
Auditorio San Agustin, DCC UC
Existe una necesidad cada vez más apremiante, por varias aplicaciones en diversos dominios, de desarrollar técnicas capaces de indexar y extraer grandes colecciones de secuencias o series de datos. Ejemplos de tales aplicaciones provienen de analistas de redes sociales y proveedores de servicios de Internet, así como de una multitud de dominios científicos. No es inusual que estas aplicaciones involucren números de series de datos del orden de cientos de millones a miles de millones, que muchas veces no se analizan con todo detalle debido a su gran tamaño. Sin embargo, ninguna solución de gestión de datos existente (como bases de datos relacionales, almacenes de columna, bases de datos de matriz y sistemas de gestión de series de tiempo) puede ofrecer soporte nativo para secuencias y los operadores correspondientes necesarios para análisis complejos.
En esta charla, abogamos por la necesidad de estudiar la teoría y los fundamentos para la gestión de secuencia de las secuencias de big data, y para construir los sistemas correspondientes que permitirán la administración escalable y el análisis de colecciones de secuencias muy grandes. Describimos los esfuerzos recientes en el diseño de técnicas para indexar y extraer colecciones verdaderamente masivas de series de datos que permitirán a los científicos analizar fácilmente sus datos. Hablamos de técnicas novedosas que crean de manera adaptativa índices de series de datos, lo que permite a los usuarios responder correctamente a las consultas antes de que finalice la tarea de indexación. Finalmente, presentamos nuestra visión para el futuro en la investigación de gestión de grandes secuencias, incluidas las direcciones prometedoras en términos de almacenamiento, procesamiento distribuido y puntos de referencia de consultas.