La mayor parte de las organizaciones están distribuyendo más datos de unas fuentes a otras que nunca. Con ello, están surgiendo problemas relacionados con fuentes dispares, heterogéneas y de rápida expansión que provocan que las empresas tengan cada vez más complicado cumplir con la demanda de datos al mismo tiempo que hacen una buena gestión de los gastos, la seguridad y la gobernanza del dato.
Todo flujo de datos empieza por una necesidad empresarial. Puede darse el caso de que a un desarrollador se le pida acceder a la información de una nueva aplicación con el objetivo de analizar o modificar su contenido antes de que llegue al sistema de analítica empleado, donde se pueda unir a los sets de datos ya existentes. Por ejemplo, en ciberseguridad, un desarrollador quizá quiera acceder a datos registrados que sean difíciles de analizar y que no puedan ser filtrados con las herramientas de indexación actuales. Mover todos esos archivos a una localización donde puedan revisarse antes de que estén listos para ser analizados por expertos en ciberseguridad es altamente ineficiente y supone un gasto de tiempo y dinero innecesarios. Crear un data lake de seguridad en el que almacenar de manera rápida y eficiente información de seguridad y gestión de sucesos (SIEM), así como otros datos relevantes, ayuda a los analistas a detectar y responder a amenazas de manera más rápida.
Precisamente, DataFlow Designer, la nueva solución de Cloudera, la empresa de datos en la nube híbrida, ayuda en este contexto a facilitar a los desarrolladores la capacidad de creación de nuevos flujos de datos que pueden filtrar información en función de los requerimientos del análisis de seguridad, transportando así los datos de manera rápida y eficiente allá donde se requiera para su análisis.
Con Cloudera DataFlow Designer los desarrolladores pueden llevar a cabo transferencias de flujos de datos mediante la construcción, prueba, despliegue y monitorización de los mismos en una única interfaz de usuario que reúne todos los requisitos. Los equipos utilizarán una interfaz que permite arrastrar y soltar a lo largo de todo el ciclo de vida del análisis, acelerando el proceso de incluir nuevos datos, simplificando el desarrollo y despliegue, y ahorrando tiempo y dinero permitiendo un verdadero autoservicio.
El autoservicio en la transferencia de datos favorece la reducción de costes, ayudando a pequeños equipos a escalar la demanda, acelerando el desarrollo y reduciendo el incentivo para buscar soluciones alternativas. Los usuarios de negocio también se benefician de esta característica, pudiendo desarrollar soluciones innovadoras centradas en los datos, además de mejorar la confianza en la información que están utilizando.
Además, los clientes pueden ahorrar en costes de infraestructura gracias a una huella mucho más ligera en todo el ciclo de vida del flujo de datos, al tiempo que ofrecen a los equipos visibilidad y control. El autoservicio agiliza el desarrollo y despliegue de estos flujos, mientras combate los costes y riesgos ocultos de los no autorizados.
La Distribución Universal de Datos (UDD, en inglés) proporciona la capacidad de conectarse a todo tipo de fuente de datos sin importar dónde, con cualquier estructura, procesarlas y, de manera fiable, proporcionar datos prioritarios a cualquier destino. Los datos pueden ser compartidos de manera segura en servidores on-premise, en la nube pública o en la nube híbrida.