La mafia para ingresar al servidor de datos para un análisis
Muchos de los llamados proyectos de big data, en realidad, Hadoop, siguen determinados por patrones. Algunos son simplemente los de integración empresarial que han sido reformulados y rebautizados.
Dado que en la mayoría de las organizaciones se considera al servidor y su software como un único y gigantesco punto de fallas, el equipo del mismo odia a todos. Sus miembros detestan el cambio y no quieren dar acceso a nada. Sin embargo, hay muchos datos en ese servidor y si el pedido es hecho con gentileza, el equipo estará interesado en que las personas aprendan a usar el sistema en vez de empezar desde el principio. Después de todo, la compañía solo ha empezado a rascar la superficie de lo que el servidor y el sistema existente tienen disponible.
Hay muchas buenas técnicas que no pueden ser utilizadas en la integración de los datos en un entorno cuando son desalentadas las instalaciones de software nuevo, como en el caso del equipo del servidor central. Sin embargo, puede estar seguro de que hay muchas técnicas para superar estas limitaciones.
A veces el objetivo de los proyectos de Hadoop o Spark es solo ver el es- tado actual del mundo. Sin embargo, más frecuentemente quieren hacer un análisis de las tendencias y rastrear los cambios de una manera que el sistema existente no hace. Esto requiere técnicas cubiertas por el cambio en captura de datos (CDC).
Técnica 1: Replicar los registros
La replicación de registros de las bases de datos es el estándar de oro. Hay muchas herramientas para ello. Requieren ser instaladas en el servidor y el receptor, en Hadoop o similar.
Las compañías que producen este software dicen que no generan un impacto en el ser-
Ningún equipo de servidor en producción ha dejado hacer esto, pero puede conectar, con ODBC o JDBC, directamente a la DB2 en el servidor.