La aplicación Data Pipeline viene con una funcionalidad incorporada que te permite leer datos de:
URLs via HTTP
Google Cloud Datastore
Google Cloud Storage
transformarlos en:
y volcarlos a:
BigQuery
Google Cloud Storage
Por ejemplo, uno de los flujos de datos incorporados lleva un archivo de un recipiente de Cloud Storage, lo transforma usando un trabajo MapReduce en Hadoop operando en Compute Engine, y carga el archivo de salida a BigQuery. Para lanzar el proceso, sólo tienes que pasar el archivo a Cloud Storage.
Esperamos que no solo vayas a usar las transformaciones incorporadas, sino que crearás etapas personalizadas para transformar datos de la forma que necesites. Puedes personalizar las tuberías fácilmente extendiendo el Python API, que está disponible aquí en Github.
También puedes personalizar la entrada y salida, por ejemplo, puedes personalizar la salida para escribir en Google Cloud SQL.
Creas y editas tuberías en un archivo de configuración JSON en la aplicación UI. La aplicación comprueba que la configuración es sintácticamente correcta y que los prerrequisitos se cumplem. Después de que guardes el archivo de configuración, da clic al botón de Run para comenzar la ejecución del proyecto. Verás el progreso de la tubería que se está ejecutando en una nueva ventana.