Google for Developers: ¿Cómo puedo mover datos de MySQL a BigQuery?

¿Cómo puedo mover datos de MySQL a BigQuery?

martes, 21 de abril de 2020

code { background-color: transparent }

En un mercado en el que las estadísticas de transmisiones son cada vez más populares, es fundamental optimizar el procesamiento de datos para poder reducir costos y garantizar la calidad y la integridad de datos. Un enfoque consiste en centrarse en trabajar solamente con los datos que cambiaron, en lugar de con todos los que hay disponibles. Aquí es donde sirve la captura de datos de cambio (CDC). La CDC es una técnica que permite este enfoque optimizado.
Los que trabajamos en Dataflow, el servicio de procesamiento de datos en transmisión de Google Cloud, desarrollamos una solución de muestra que permite transferir un flujo de datos cambiados provenientes de cualquier tipo de base de datos MySQL en versiones 5.6 y posteriores (autoadministrada, local, etc.), y sincronizarlo con un conjunto de datos en BigQuery. Esta solución está disponible dentro del repositorio público de plantillas de Dataflow. Puedes encontrar instrucciones para usar la plantilla en la sección README del repositorio de GitHub.
La CDC proporciona una representación de los datos que cambiaron en una transmisión, lo que permite que los cálculos y el procesamiento se centren específicamente en los registros cambiados. Se puede aplicar la CDC para muchos casos de uso. Algunos ejemplos incluyen la replicación de una base de datos crítica, la optimización de un trabajo de análisis en tiempo real, la invalidación de la memoria caché, la sincronización entre un almacén de datos transaccionales y otro de tipo almacén, y mucho más.

Cómo mueve datos de MySQL a BigQuery la solución de CDC de Dataflow

La solución implementada, que se muestra a continuación, funciona con cualquier base de datos MySQL, la cual se supervisa mediante un conector que desarrollamos basado en Debezium. El conector almacena los metadatos de la tabla utilizando Data Catalog (el servicio de administración de metadatos escalable de Google Cloud) y envía las actualizaciones a Pub/Sub (tecnología de transferencia de transmisiones y mensajería de Google Cloud). Luego, una canalización de datos toma esas actualizaciones de Pub/Sub y sincroniza la base de datos MySQL con un conjunto de datos de BigQuery.
Esta solución se basa en Debezium, una excelente herramienta de código abierto para la CDC. Hemos desarrollado un conector configurable basado en esta tecnología que puedes ejecutar de forma local o en tu propio entorno de Kubernetes para enviar los datos de los cambios a Pub/Sub.

Cómo usar la solución de CDC de Dataflow

Implementar la solución consiste en cuatro pasos:

Implementar tu base de datos (no debes hacer nada aquí si ya tienes una)
Crear temas de Pub/Sub para cada una de las tablas que quieras exportar
Implementar nuestro conector basado en Debezium
Iniciar la canalización de Dataflow para consumir los datos de Pub/Sub y sincronizarlos con BigQuery

Supongamos que tienes una base de datos MySQL ejecutándose en cualquier entorno. Para cada tabla de la base de datos que quieras exportar, debes crear un tema de Pub/Sub y una suscripción correspondiente a ese tema.
Una vez que tengas la base de datos y los temas de Pub/Sub, ejecuta el conector de Debezium. El conector puede funcionar en muchos entornos: compilado localmente desde la fuente, a través de un contenedor de Docker o en un clúster de Kubernetes. Para obtener instrucciones sobre el funcionamiento del conector de Debezium y la solución en general, consulta la sección README.
Una vez que el conector de Debezium empiece a ejecutarse y a capturar los cambios de MySQL, los enviará a Pub/Sub. Usando Data Catalog, también actualizará los esquemas del tema de Pub/Sub correspondiente a cada tabla de MySQL.
Una vez que tengas todo listo, podrás lanzar la canalización de Dataflow para consumir los datos de cambio de Pub/Sub y sincronizarlos con las tablas de BigQuery. Se puede lanzar el trabajo de Dataflow desde la línea de comandos. Una vez que lo lances, verás lo siguiente:

Una vez que se estén ejecutando el conector y la canalización, solo necesitarás supervisar su progreso y asegurarte de que todo esté funcionando correctamente.

Comienza hoy

¿Tienes un caso de uso que se alinee con las capacidades de CDC de Dataflow? Por ejemplo, la optimización de un trabajo de análisis en tiempo real ya existente. En ese caso, ¡no te quedes atrás! Primero, usa este código para empezar a compilar tu primera canalización de CDC en Dataflow ahora mismo. Luego, comparte tus comentarios con el equipo de Dataflow en el registro de errores de GitHub.
Al equipo de Google Cloud le complace implementar la CDC como una técnica increíblemente valiosa para optimizar el análisis de datos de transmisión. Esperamos ver qué desarrollas con estas nuevas capacidades para Dataflow y recibir comentarios al respecto.

Labels

.app
.dev
.txt
#AMP
#CPU
#DeveloperStudentClubs
#DevFest
#DragonBall
#DSC
#Forsety
#ForsetySecurity
#freeandopen
#GCP
#Google
#GoogleCloud
#GoogleCloudPlatform
#GoogleLaunchpad
#iio2009
#Kubernetes
#MaterialDesign
#OneCommunity
#Security
#TensorFlow
#UPGlobal
#UpLatam
#WithGoogle
+page
10 YEARS
2013
2019
64 bits
A/B Testing
AA
Accelerator
Action on Goolge
actionbar
Actions
Actions Console
AdMob
Ads
adwords
adwords api
AI
AIY
ajax
alarmmanager
ALFA
almacenamiento
alojamiento de proyectos en google code
AMP
AMP Conf
AMP Project
amp-date-picker
amphtml
Analytics
Andorid
android
Android (operating System)
Android 3.1
android 3.3
android 4.2
android 9
Android 9 Pie
Android App Bundle
android design
Android Dev Summit
Android Developers
android Jetpack
Android P
Android SDK
Android Studio
Android Things
Android Wear
AndroidDevStory
androititlan
angelina jolie
Annotation
Announcements
anuncios
API
API Analytics YouTube
Apigee
APIs
Aplicaciones
aplicaciones chrome
app
app engine
App Indexing
app invites
App Server
applications
AppQuality
apps
Apps Script
AR
ARCore
arte
ATLAS
AWP
backend
Base64
batch
Bava
Betatesting
Better Ads Standars
bigdata
BigQuery
Biometrics
blink
bootcamp
BOT
BQ
Business
búsqueda ajax
by Google
byCases
byCommunity
byDevelopers
byGoogle
C++
CALENDAR
Cardboard
case
caso de éxito
Casos de éxito
casos destacados
CCOSS
Century Fox
chat
chrome
chrome web store
chromebook
chromecast
chromium
Cinéfilos
cloud
Cloud Anchors
CLOUD endpoints
Cloud Firestore
Cloud Functions
Cloud IoT Core
Cloud Next
Cloud Scheduler
Cloud services
cloud test lab
Cloud Text-to-Speech
Cloud Translation
CMD en vivo
coconut
code
code-in
code.org
CodeLabs
código
código abierto
Colab
colombia
Communities
Comunidades
concurso google
conference
contenedores
convocatoria
Coordinate
crashlytics
CRE
crear aplicaciones ajax
creatividad
Crowdsource
CSS
cws
daniela robles
dart
dart sdk
dartium
dartlang
Dataset
DCL
denis labelle
desarrolladores
Desarrolladores Google
desarrolladores LatAm
Desarrollar
Design
Design Sprint
Destacados
dev
Dev.f
DevArt
DevBus
DevBusLatAm
Developer Bus
Developer Summit
DeveloperConsole
developers
DevFest
devoxx
dialogflow
diseño UX
Distribuir
DNS
DOM
domain
DonkeyCar
doubleclick
Drive SDK
Drivers
ecommerce
ecosistema
elections
elizalde
Emoticons
emprendedores
empresas
engagement
english
Enhanced Campaigns
enterprise
eventos
Events
evolución de aplicaciones
Excel
ExpertosDicen
Faas
Family
FanBridge
FCM
FCP
Featured
fido
find people
Fintech
firebase
Firebase Cloud Messaging
firebase summit
flu trends
Flutter
Flutter 1.0
flutter 1.7
flutter developers
Flutter Live
FlutterLive
FoundersLab
Freebase
Fuction
Fuctions
Full-Stack
functional programming
G Suite Dev Show
G+
g+ goto gal
G+GotoGal
GAE
game
games
GCloud
gcm
GCP
GCS
GDA
GDE
GDG
GDH
GDL
GDLevent
GDS
Get Inspired
get.app
GitHub
GLP
gmail
golang
GOMO
Google
Google Accelerator
Google AdMob SDK
Google AdWords
Google Analytics
Google APIS
Google App Engine
Google Apps
Google Apps Script
Google Art Project
Google Assistant
google calendar
google cast
Google Charts
Google Chrome
Google Cloud
Google Cloud Console
Google Cloud Messaging
Google Cloud Next
Google Cloud Platform
Google Cloud Platform Newsletter
google cloud platforn
Google Cloud Storage
google code-in
Google Compute Engine
Google Dataset
Google Developer Groups
google developers
Google Developers Academy
google developers expert
Google Developers Hackademy
google dns
Google Drawings
Google Drive
Google Earth
Google for games
Google Forms
google geo
Google Home
google i/o
google i/o extended
google io
Google Keep
Google Kubernetes Engine
Google Launchapad
Google Launchpad
Google Maps
google maps coordinate
Google Maps Platform
Google Mexico
Google Nose
google now
Google Person Finder
google places api
Google Play
Google Play Books
Google Play Developer API
google play games
Google Play Movies
Google Play Protect
Google Play Services
Google Plus
Google Science Fair
google search
Google Sheets
google sign in
Google Top Geek
Google+
Google+ Communities
Google+ Hangouts
google+ sign-in
GoogleAPI
googlecloud storage
GoogleCloudPlatform
googledevs
GooglePlay
Googleplex
Goolge Lunchpad
GTG
Hackademy
hackers
Haiko
Haití
hangouts
Hangouts Remote Desktop
hardcode
Heello
honeycomb
HTML
HTML5
HTTPS
I/O
IA
IAM
IETF
IFAI
in app purchases
in-app
ingles
Ingress
instagram
integración de soluciones
interactive post
Interesante
International
International Women’s Day
IO
io15
io18
io19
iOS
IoT
istio
IU
IVR
J2EE
java
JavaScript
jelly bean
JS
JSON
Juegos
juegos html5
Kit ML
Knative
kotlin
kUBERNATES
Kubernetes
LATAM
latamRegionSur
Launchpad
Launchpad Studio
Lenovo Mirage Solo
lightbox
linux
lucero galindo
machine learning
Made with Code
Mapdata
Mapeo
maps
Maps Ad Unit
Maps API
Maps Engine
Market
Marketing
Marshmallow
MATERIAL DESIG
Material Design
mejores apps 2013
México
michelle marie
MIT
MIT Global Start-up Labs
MIT-AITI
ML
ML Kit
mobile
monetizar
mongoDB
MOOC
Motorola
Mountain View
móvil
MQTT
mr.white
mTLS
natalie villalobos
Navigation
NBA JAM
NES
Next Big Sound
Next Level
nfc
Niantic
Nik
NINTENDO
node.js
NoSQL
nube
OAuth2
Objective-C
OClock
open source
OPenApi
OS
OSS
Paas
PageSpeed
PagesSpeed
parallel18
patrones
patters
performance
permisos
Pipeline API
Pixability
pixel
Píxel
play
Play Console
Playtime
Podcast
pollito pio
Polymer
por lote
Posse
Prediction API
primer
Producto
programación
Propositos
Protocol Buffers
proyecto 20%
Push API
PYMES
python
Q
Q4
quickoffice
Rasberry Pi Zero WH
Raspberry Pi
Realtime
Reflectly
register
Release
Resources
robots.txt
Safe
SDK
Search
Security
seedbank
seguridad
SEO
servidores
Showyou
sign-in
SNES
SO
social media
Spain
SpLATAM
SQL
SQLite
Start
startup grind
Startup Launch
startup weekend
startup weekend for the planet
startupbus
startups
StayAtHome
story
Street View
subtitles
success
sw
SyScan
tablet
Tablet Optimization Tips
tabletas
takeaction
Tango
tendencias 2013
TensorFlow Developer Summit
testing
TextView
TF JAM
The Garage
The Venture City
tips G+
tips gmail
TLD
TLS
Top Experts
Top Geek
top level domain
TopExpert
topics
traducciones
Transparency Report
triggers
Tubular Labs
twilio
Tyka
TypeScript
UAC
udacity
ui
Umbrales
UNAM
unity
Unity3D
universal search
UX
Vector
VectorDrawable
video juegos
vidIQ
ViewPager
Visual Progress
Voicekit
VPC
VR
VSCode
web
Web hosting
Web móvil
WebAssembly
with google
Wizdeo
WizTracker
Women at Google
Women Techmakers
workmanager
WTM
XKCD
XML
Yifat Cohen
youtube
YouTube Analytics API
YouTube API
YouTube Data API
YouTube One Channel
YouTube Player API

Feed

Desarrolladores
Eventos y Comunidad
Casos Destacados
Dicen los Expertos
Google Accelerator

Google
Privacy
Terms

¿Cómo puedo mover datos de MySQL a BigQuery?

Labels

Archive

Feed