En este artículo, exploraremos a fondo el uso de Apache Kafka MirrorMaker 2.0 en entornos HDInsight, centrándonos en la replicación de datos entre clústeres Kafka. Este proceso es esencial para escenarios como recuperación ante desastres, adaptación a la nube, georrepliación, aislamiento y agregación de datos.
Requisitos Previos
Antes de comenzar, asegúrese de contar con un entorno que incluya al menos dos clústeres Kafka en HDInsight. La versión de Kafka debe ser superior a 2.4 (HDI 4.0), y el clúster de origen debe tener datos y temas para probar las diversas funciones del proceso de replicación de MirrorMaker 2.0.
Caso de Uso: Simulación de Replicación con MirrorMaker 2.0
Vamos a simular el uso de MirrorMaker 2.0 para replicar puntos de datos y desplazamientos entre dos clústeres Kafka en HDInsight. Este enfoque se puede aplicar en casos prácticos como recuperación ante desastres, adaptación a la nube, georrepliación, aislamiento de datos y agregación de datos.
Replicación de Desplazamientos con MirrorMaker 2.0
MirrorMaker 2.0 utiliza conectores estándar de Kafka Connect para replicar temas, ACL y configuraciones entre clústeres. Los conectores clave incluyen MirrorSourceConnector, MirrorSinkConnector, MirrorCheckpointConnector y MirrorHeartBeatConnector. La configuración y despliegue se gestionan mediante el script connect-mirror-maker.sh, lo que permite la creación de un clúster MM2 distribuido.
Configuración SSL
Si su configuración requiere SSL, puede establecer la configuración correspondiente en el archivo de configuración de MirrorMaker 2.0. Esto incluye detalles como la ubicación de truststores y keystores, contraseñas y mecanismos de autenticación.
Preguntas Frecuentes
Diferencia en el Último Desplazamiento: La discrepancia puede deberse a la purga de puntos de datos en el tema fuente.
Comportamiento de Consumidores en Migración: MirrorCheckpointConnector almacena automáticamente puntos de control de desplazamiento para grupos de consumidores, facilitando la continuidad en la migración.
Retención del Nombre del Tema en el Clúster de Destino: El comportamiento predeterminado en MirrorMaker 2.0 es prevenir la anulación de datos en topologías de espejo complejas.
Creación de Temas Internos: Los temas internos de MirrorMaker 2.0 son esenciales para el seguimiento del proceso de replicación, monitoreo y mapeo de desplazamientos.
Número de Réplicas en el Clúster de Destino: MM2 no replica el factor de replicación de temas en clústeres de destino; esto se controla desde la configuración.
Política de Replicación Personalizada: Es posible implementar una política personalizada mediante la interfaz ReplicationPolicy para gestionar nombres y comportamientos de temas remotos.
Próximos Pasos
Este artículo proporciona una visión exhaustiva de MirrorMaker 2.0 en HDInsight. Para obtener más información sobre Apache Kafka en HDInsight y configuraciones adicionales, consulte las referencias al final del artículo.
Referencias
- [Cambios en MirrorMaker 2.0 de Apache](enlace a la documentación oficial de Apache)
- [Configuración de Certificados del Cliente para HDI Kafka](enlace a la documentación de Microsoft)
- [Documentación de Apache Kafka 2.4](enlace a la documentación oficial de Apache)
- [Conectar una Red Local a Azure](enlace a la guía de Microsoft Azure)
Con esta guía detallada, estamos seguros de que podrá aprovechar al máximo Kafka MirrorMaker 2.0 en HDInsight para sus necesidades de replicación de datos. ¡Comience ahora y optimice su infraestructura de Kafka!