Rendimiento pico: cómo usaron los minoristas Google Cloud durante Black Friday y Cyber Monday
viernes, 5 de abril de 2019
En Google Cloud, trabajamos con empresas de varios sectores, y hemos visto que casi todas experimentan eventos pico cuando el tráfico en línea aumenta mucho en poco tiempo. Para los minoristas, estos eventos pico son Black Friday y Cyber Monday (o BFCM), el período después del día de Acción de Gracias en EE.UU., cuando comienza la temporada de compras para las fiestas. Ese fin de semana comienza la temporada de compras para las fiestas, que se extiende durante todo noviembre y diciembre, y representa un porcentaje estimado del 20% de todas las ventas minoristas del año.
En un día promedio, las ventas minoristas en línea suman unos USD 1,400 millones en EE.UU., informa CNET. En comparación, durante Black Friday 2018, sumaron USD 6,220 millones (24% más que en 2017). Con USD 7,900 millones (19% más que en 2017), Cyber Monday 2018 se convirtió en el día de mayor volumen de ventas en línea de la historia de EE.UU., según Adobe Analytics.
El tráfico a las apps móviles y de compras minoristas aumenta a niveles incomparables durante el resto del año, lo que podría ocasionar problemas de disponibilidad y escalabilidad que representen millones de dólares en ventas perdidas. Todos los años, se habla de fallas en sitios web minoristas que, además de pérdida de ganancias, causan daños a la reputación, hacen que los clientes se molesten y generan estrés laboral al personal de TI. Por este motivo, evitar el tiempo de inactividad es de suma importancia para los minoristas.
Sabemos que una infraestructura tecnológica sólida es la base para que los minoristas puedan responder a la demanda y tener éxito durante esta temporada tan activa. Sin embargo, la asistencia técnica para esa infraestructura también es fundamental. No se trata únicamente de responder ante algún problema. La asistencia técnica para un evento como Black Friday y Cyber Monday requiere preparación desde mucho tiempo antes, e incluye pruebas, revisiones de arquitectura, planificación de capacidad, pruebas operativas y salas de operación durante el período activo del evento. Para la asistencia técnica de BFCM, adoptamos un enfoque normativo, con expectativas y responsabilidades desde las primeras etapas (más de seis meses antes de la fecha del evento). De esta forma, podemos comprender qué es lo que necesita cada minorista, tanto de su lado como de nuestro equipo.
Detallaremos los pasos que ayudaron a nuestros clientes minoristas a tener una temporada fructífera y sin desastres. Estos pasos podrían resultarte útiles para preparar tu propio evento pico. También describiremos cómo una plataforma minorista de gran escala determinada, Shopify, tuvo un BFCM exitoso con Google Cloud.
Cómo prepararse para brindar asistencia técnica a minoristas en Black Friday y Cyber Monday
Comenzamos a planificar el evento de Black Friday y Cyber Monday para nuestros clientes minoristas en la primavera boreal de 2018, a fin de acompañar su proceso de preparación. Formamos un grupo de trabajo integrado por representantes de los equipos de Servicios Profesionales, Ingeniería para Clientes, Asistencia Técnica, Ingeniería de Fiabilidad para el Cliente (CRE) y Productos e Ingeniería de Google Cloud. Nos reunimos periódicamente para crear una estrategia, desarrollar tácticas y ejecutar esos planes a fin de asegurarnos de que los miembros del equipo de Google y nuestros clientes minoristas de GCP estuvieran bien preparados.
Nos enfocamos en algunas áreas tecnológicas clave en las que la planificación podría ayudar a evitar problemas.
1. Planificación anticipada de la capacidad
Ya desde mayo de 2018, nuestros equipos de cuentas comenzaron a comunicarse con clientes minoristas de GCP. Hablamos acerca de la planificación en términos generales, como sus objetivos de ventas específicos para las fiestas y la capacidad de infraestructura que podrían necesitar a fin de alcanzar esas metas.
Trabajamos estrechamente con los minoristas para evaluar sus arquitecturas y asesorarlos con respecto a técnicas para prever y planificar aumentos de capacidad antes de Black Friday, ya que la escalabilidad es esencial al planificar picos de tráfico. Realizamos pruebas entre equipos y servicios, y medimos los niveles de estrés de los sistemas para determinar si había alguna limitación o debilidad, y remediar cualquier inconveniente, según fuera necesario. Esas preparaciones personalizadas rindieron sus frutos en todos los aspectos. Con el estado de capacidad de GCP en verde (es decir, disponible) durante todo el evento de Black Friday y Cyber Monday, los compradores que visitaron los sitios de nuestros clientes minoristas pudieron hacer sus compras sin tener problemas de respuesta o ralentización.
2. Pruebas de fiabilidad
La identificación de problemas potenciales mediante una técnica "pre-mortem" (componente importante de CRE) fue otro paso preventivo que dimos. Desde el principio, nuestro equipo de CRE se asoció con clientes de venta minorista para analizar la fiabilidad de sus infraestructuras y realizar ejercicios de simulación a fin de determinar si estaban preparados para enfrentar una falla. En algunos casos, el equipo de Servicios Profesionales ayudó a realizar pruebas de carga para asegurarse de que las plataformas de los minoristas pudieran procesar los niveles de tráfico esperados. En otros casos, recomendamos que se hicieran evaluaciones y pruebas de carga regulares. Además, dada la importancia que ha cobrado el comercio móvil, también probamos el rendimiento y la fiabilidad de las apps para dispositivos móviles de los clientes. También empleamos herramientas de supervisión de la API de Apigee para garantizar su estabilidad. Hemos visto cómo las API son cada vez más importantes en la tecnología de venta minorista, ya que permiten diseñar sitios de comercio electrónico más flexibles y basados en microservicios.
3. Salas de operación
"¿Qué podría salir mal?"
Esa es la pregunta del millón de dólares que hay que hacerse antes de un evento importante de TI. Nos reunimos con los equipos de TI e ingeniería de nuestros clientes de venta minorista para explorar y probar los peores escenarios posibles, como el bloqueo de todo el sitio. Creamos una sala de operaciones central para Black Friday y Cyber Monday con personal experimentado de nivel sénior de los equipos de Servicios Profesionales, Asistencia Técnica e Ingeniería de Fiabilidad de Sitios (SRE) de Google. Este equipo de personas encargadas de responder en caso de necesidad estaba preparado para usar comunicaciones en tiempo real a fin de mantenerse conectados y solucionar problemas tan pronto como surgieran. Esto se sumaba a entender las integraciones entre cliente y proveedor, y asegurarse de que hubiera rutas de escalamiento definidas de antemano, de manera que las expectativas de los clientes fueran claras para los diferentes canales.
Durante ese fin de semana, duplicamos la cantidad de personal de asistencia técnica de guardia disponible para los clientes de venta minorista. En algunos casos, ubicamos equipos de cuenta en instalaciones de clientes minoristas de GCP y Apigee para ayudarlos a satisfacer sus necesidades. Supervisamos la operación para determinar si los clientes de venta minorista comenzaban a experimentar problemas de confiabilidad o latencia. En caso de necesitarse una intervención, el equipo de la sala de operaciones se encargaba del asunto, solucionando problemas y asesorando con respecto a los siguientes pasos. El equipo de la sala de operaciones de Google también tenía acceso directo y abierto a ingenieros y ejecutivos de Google para obtener asistencia adicional.
Los miembros del equipo de Apigee estuvieron atentos al tráfico de la API durante el período de Black Friday. La cantidad de llamadas a la API para clientes de Apigee (excluidos los que alojan la plataforma en las instalaciones) aumentó un 95% en comparación con el mismo período de 2017. El tráfico pico de API a través de Apigee aumentó a más del doble, de 48,000 transacciones por segundo (TPS) a 108,000 TPS este año, y la plataforma se mantuvo con una disponibilidad del 99,999%.
Black Friday y Cyber Monday sin incidentes para vendedores minoristas
Uno de nuestros socios de ventas minoristas, Shopify, es una plataforma de comercio electrónico que utilizan más de 600,000 vendedores minoristas independientes. La complejidad de administrar todos esos puntos de venta hace que sea todavía más difícil predecir el tráfico del sitio y los picos de ventas durante el período de las fiestas. Shopify proporciona una plataforma con 99,98% de tiempo de actividad y considera que BFCM es su evento anual equivalente a una "Copa del Mundo" en el ámbito deportivo.
En un día promedio, las ventas minoristas en línea suman unos USD 1,400 millones en EE.UU., informa CNET. En comparación, durante Black Friday 2018, sumaron USD 6,220 millones (24% más que en 2017). Con USD 7,900 millones (19% más que en 2017), Cyber Monday 2018 se convirtió en el día de mayor volumen de ventas en línea de la historia de EE.UU., según Adobe Analytics.
El tráfico a las apps móviles y de compras minoristas aumenta a niveles incomparables durante el resto del año, lo que podría ocasionar problemas de disponibilidad y escalabilidad que representen millones de dólares en ventas perdidas. Todos los años, se habla de fallas en sitios web minoristas que, además de pérdida de ganancias, causan daños a la reputación, hacen que los clientes se molesten y generan estrés laboral al personal de TI. Por este motivo, evitar el tiempo de inactividad es de suma importancia para los minoristas.
Sabemos que una infraestructura tecnológica sólida es la base para que los minoristas puedan responder a la demanda y tener éxito durante esta temporada tan activa. Sin embargo, la asistencia técnica para esa infraestructura también es fundamental. No se trata únicamente de responder ante algún problema. La asistencia técnica para un evento como Black Friday y Cyber Monday requiere preparación desde mucho tiempo antes, e incluye pruebas, revisiones de arquitectura, planificación de capacidad, pruebas operativas y salas de operación durante el período activo del evento. Para la asistencia técnica de BFCM, adoptamos un enfoque normativo, con expectativas y responsabilidades desde las primeras etapas (más de seis meses antes de la fecha del evento). De esta forma, podemos comprender qué es lo que necesita cada minorista, tanto de su lado como de nuestro equipo.
Detallaremos los pasos que ayudaron a nuestros clientes minoristas a tener una temporada fructífera y sin desastres. Estos pasos podrían resultarte útiles para preparar tu propio evento pico. También describiremos cómo una plataforma minorista de gran escala determinada, Shopify, tuvo un BFCM exitoso con Google Cloud.
Cómo prepararse para brindar asistencia técnica a minoristas en Black Friday y Cyber Monday
Comenzamos a planificar el evento de Black Friday y Cyber Monday para nuestros clientes minoristas en la primavera boreal de 2018, a fin de acompañar su proceso de preparación. Formamos un grupo de trabajo integrado por representantes de los equipos de Servicios Profesionales, Ingeniería para Clientes, Asistencia Técnica, Ingeniería de Fiabilidad para el Cliente (CRE) y Productos e Ingeniería de Google Cloud. Nos reunimos periódicamente para crear una estrategia, desarrollar tácticas y ejecutar esos planes a fin de asegurarnos de que los miembros del equipo de Google y nuestros clientes minoristas de GCP estuvieran bien preparados.
Nos enfocamos en algunas áreas tecnológicas clave en las que la planificación podría ayudar a evitar problemas.
1. Planificación anticipada de la capacidad
Ya desde mayo de 2018, nuestros equipos de cuentas comenzaron a comunicarse con clientes minoristas de GCP. Hablamos acerca de la planificación en términos generales, como sus objetivos de ventas específicos para las fiestas y la capacidad de infraestructura que podrían necesitar a fin de alcanzar esas metas.
Trabajamos estrechamente con los minoristas para evaluar sus arquitecturas y asesorarlos con respecto a técnicas para prever y planificar aumentos de capacidad antes de Black Friday, ya que la escalabilidad es esencial al planificar picos de tráfico. Realizamos pruebas entre equipos y servicios, y medimos los niveles de estrés de los sistemas para determinar si había alguna limitación o debilidad, y remediar cualquier inconveniente, según fuera necesario. Esas preparaciones personalizadas rindieron sus frutos en todos los aspectos. Con el estado de capacidad de GCP en verde (es decir, disponible) durante todo el evento de Black Friday y Cyber Monday, los compradores que visitaron los sitios de nuestros clientes minoristas pudieron hacer sus compras sin tener problemas de respuesta o ralentización.
2. Pruebas de fiabilidad
La identificación de problemas potenciales mediante una técnica "pre-mortem" (componente importante de CRE) fue otro paso preventivo que dimos. Desde el principio, nuestro equipo de CRE se asoció con clientes de venta minorista para analizar la fiabilidad de sus infraestructuras y realizar ejercicios de simulación a fin de determinar si estaban preparados para enfrentar una falla. En algunos casos, el equipo de Servicios Profesionales ayudó a realizar pruebas de carga para asegurarse de que las plataformas de los minoristas pudieran procesar los niveles de tráfico esperados. En otros casos, recomendamos que se hicieran evaluaciones y pruebas de carga regulares. Además, dada la importancia que ha cobrado el comercio móvil, también probamos el rendimiento y la fiabilidad de las apps para dispositivos móviles de los clientes. También empleamos herramientas de supervisión de la API de Apigee para garantizar su estabilidad. Hemos visto cómo las API son cada vez más importantes en la tecnología de venta minorista, ya que permiten diseñar sitios de comercio electrónico más flexibles y basados en microservicios.
3. Salas de operación
"¿Qué podría salir mal?"
Esa es la pregunta del millón de dólares que hay que hacerse antes de un evento importante de TI. Nos reunimos con los equipos de TI e ingeniería de nuestros clientes de venta minorista para explorar y probar los peores escenarios posibles, como el bloqueo de todo el sitio. Creamos una sala de operaciones central para Black Friday y Cyber Monday con personal experimentado de nivel sénior de los equipos de Servicios Profesionales, Asistencia Técnica e Ingeniería de Fiabilidad de Sitios (SRE) de Google. Este equipo de personas encargadas de responder en caso de necesidad estaba preparado para usar comunicaciones en tiempo real a fin de mantenerse conectados y solucionar problemas tan pronto como surgieran. Esto se sumaba a entender las integraciones entre cliente y proveedor, y asegurarse de que hubiera rutas de escalamiento definidas de antemano, de manera que las expectativas de los clientes fueran claras para los diferentes canales.
Durante ese fin de semana, duplicamos la cantidad de personal de asistencia técnica de guardia disponible para los clientes de venta minorista. En algunos casos, ubicamos equipos de cuenta en instalaciones de clientes minoristas de GCP y Apigee para ayudarlos a satisfacer sus necesidades. Supervisamos la operación para determinar si los clientes de venta minorista comenzaban a experimentar problemas de confiabilidad o latencia. En caso de necesitarse una intervención, el equipo de la sala de operaciones se encargaba del asunto, solucionando problemas y asesorando con respecto a los siguientes pasos. El equipo de la sala de operaciones de Google también tenía acceso directo y abierto a ingenieros y ejecutivos de Google para obtener asistencia adicional.
Los miembros del equipo de Apigee estuvieron atentos al tráfico de la API durante el período de Black Friday. La cantidad de llamadas a la API para clientes de Apigee (excluidos los que alojan la plataforma en las instalaciones) aumentó un 95% en comparación con el mismo período de 2017. El tráfico pico de API a través de Apigee aumentó a más del doble, de 48,000 transacciones por segundo (TPS) a 108,000 TPS este año, y la plataforma se mantuvo con una disponibilidad del 99,999%.
Black Friday y Cyber Monday sin incidentes para vendedores minoristas
Uno de nuestros socios de ventas minoristas, Shopify, es una plataforma de comercio electrónico que utilizan más de 600,000 vendedores minoristas independientes. La complejidad de administrar todos esos puntos de venta hace que sea todavía más difícil predecir el tráfico del sitio y los picos de ventas durante el período de las fiestas. Shopify proporciona una plataforma con 99,98% de tiempo de actividad y considera que BFCM es su evento anual equivalente a una "Copa del Mundo" en el ámbito deportivo.
La plataforma de Shopify está formada por varios servicios internos y puntos de interacción con proveedores externos, como puertas de enlace de pago y transportistas. Cada una de estas dependencias debe ser fiable y funcionar bien para que BFCM pueda transcurrir sin problemas.
En 2017, durante Black Friday y Cyber Monday, solo cerca del 10% de las tiendas de Shopify se ejecutaban en GCP. El resto estaba alojado en su propio centro de datos. En 2018, Shopify apostó por GCP como proveedor de infraestructuras, con el 100% de sus minoristas operando en nuestra plataforma.
Shopify fue uno de los primeros en adoptar los contenedores Docker y ahora usa Google Kubernetes Engine como sistema de administración de contenedores, junto con el servicio de almacenamiento de objetos unificados de Cloud Storage.
Los ingenieros de producción de Shopify comenzaron a trabajar codo a codo con el equipo de BFCM de Google meses antes de la temporada de compras navideñas. Colaboramos en una planificación de capacidad a fin de que Shopify tuviera el búfer de capacidad adecuado para asignar una carga máxima aún mayor que la que tenían en 2017, y ayudamos a diagnosticar y solucionar problemas potenciales de rendimiento, como la latencia de red.
Durante el resto del año, nuestro equipo de cuentas de Shopify estuvo en contacto con los ingenieros de Shopify mediante Slack, Hangouts Chat y otras herramientas de comunicación en tiempo real. Para Black Friday y Cyber Monday, dimos un paso más allá y enviamos a empleados de Google a la sala de operaciones de Shopify, ubicada en Toronto.
"A medida que se acercaba BFCM 2018, ya no podíamos recurrir a la capacidad de los centros de datos", explica Camilo López, director de Ingeniería de Producción de Shopify. "Pero sabíamos que con Google Cloud, teníamos el apoyo adicional y la sólida base tecnológica necesaria para llevar a cabo un período de Black Friday y Cyber Monday exitoso. El gran evento transcurrió sin incidentes. En total, nuestros comerciantes vendieron más de USD 1,500 millones en mercadería durante ese fin de semana, lo que representa USD 1,000 millón más que en 2017".
El fin de semana de BFCM fue récord para Shopify, con un pico de casi 11,000 pedidos por minuto y alrededor de 100,000 solicitudes por segundo atendidas durante largos períodos. En general, la mayoría de las métricas del sistema tuvieron un aumento del 180% en comparación con 2017.
Eventos sin problemas gracias a la planificación y asistencia de Cloud
Siguiendo las estrategias anteriores, puedes prepararte para lo que sea que se te presente, como un pico de tráfico imprevisto o un aumento importante de las ventas con el que cuentas todos los años. Y eso beneficia tanto a clientes como a tus equipos de TI. Después del exitoso BFCM 2018, un empleado de uno de nuestros socios minoristas más recientes nos envió una nota de agradecimiento y comentó que en 2018 pudo disfrutar de la cena de Acción de Gracias con su familia por primera vez en muchos años.
Para lograr tus propios picos sin problemas, planifica y prepárate antes del evento. Piensa en cómo podría fallar tu servicio, cómo detectarías esos problemas y cómo reaccionarías ante ellos. Realiza pruebas para detectar debilidades potenciales. Elige medidas exitosas que hayan tomado tus clientes y supervisa detenidamente tu infraestructura durante el evento. Haz un post-mortem inmediatamente después para lograr que el siguiente gran evento sea aún más fluido. Obtén más información aquí sobre cómo adoptar estas estrategias para tu organización.
Y, por supuesto, nuestro equipo de asistencia de GCP está aquí para ayudarte durante estos eventos planificados y no planificados. Si tienes un gran evento en el que podamos ayudarte, comunícate con tu gerente técnico de cuentas o con el equipo de cuentas de Google Cloud.
En 2017, durante Black Friday y Cyber Monday, solo cerca del 10% de las tiendas de Shopify se ejecutaban en GCP. El resto estaba alojado en su propio centro de datos. En 2018, Shopify apostó por GCP como proveedor de infraestructuras, con el 100% de sus minoristas operando en nuestra plataforma.
Shopify fue uno de los primeros en adoptar los contenedores Docker y ahora usa Google Kubernetes Engine como sistema de administración de contenedores, junto con el servicio de almacenamiento de objetos unificados de Cloud Storage.
Los ingenieros de producción de Shopify comenzaron a trabajar codo a codo con el equipo de BFCM de Google meses antes de la temporada de compras navideñas. Colaboramos en una planificación de capacidad a fin de que Shopify tuviera el búfer de capacidad adecuado para asignar una carga máxima aún mayor que la que tenían en 2017, y ayudamos a diagnosticar y solucionar problemas potenciales de rendimiento, como la latencia de red.
Durante el resto del año, nuestro equipo de cuentas de Shopify estuvo en contacto con los ingenieros de Shopify mediante Slack, Hangouts Chat y otras herramientas de comunicación en tiempo real. Para Black Friday y Cyber Monday, dimos un paso más allá y enviamos a empleados de Google a la sala de operaciones de Shopify, ubicada en Toronto.
"A medida que se acercaba BFCM 2018, ya no podíamos recurrir a la capacidad de los centros de datos", explica Camilo López, director de Ingeniería de Producción de Shopify. "Pero sabíamos que con Google Cloud, teníamos el apoyo adicional y la sólida base tecnológica necesaria para llevar a cabo un período de Black Friday y Cyber Monday exitoso. El gran evento transcurrió sin incidentes. En total, nuestros comerciantes vendieron más de USD 1,500 millones en mercadería durante ese fin de semana, lo que representa USD 1,000 millón más que en 2017".
El fin de semana de BFCM fue récord para Shopify, con un pico de casi 11,000 pedidos por minuto y alrededor de 100,000 solicitudes por segundo atendidas durante largos períodos. En general, la mayoría de las métricas del sistema tuvieron un aumento del 180% en comparación con 2017.
Eventos sin problemas gracias a la planificación y asistencia de Cloud
Siguiendo las estrategias anteriores, puedes prepararte para lo que sea que se te presente, como un pico de tráfico imprevisto o un aumento importante de las ventas con el que cuentas todos los años. Y eso beneficia tanto a clientes como a tus equipos de TI. Después del exitoso BFCM 2018, un empleado de uno de nuestros socios minoristas más recientes nos envió una nota de agradecimiento y comentó que en 2018 pudo disfrutar de la cena de Acción de Gracias con su familia por primera vez en muchos años.
Para lograr tus propios picos sin problemas, planifica y prepárate antes del evento. Piensa en cómo podría fallar tu servicio, cómo detectarías esos problemas y cómo reaccionarías ante ellos. Realiza pruebas para detectar debilidades potenciales. Elige medidas exitosas que hayan tomado tus clientes y supervisa detenidamente tu infraestructura durante el evento. Haz un post-mortem inmediatamente después para lograr que el siguiente gran evento sea aún más fluido. Obtén más información aquí sobre cómo adoptar estas estrategias para tu organización.
Y, por supuesto, nuestro equipo de asistencia de GCP está aquí para ayudarte durante estos eventos planificados y no planificados. Si tienes un gran evento en el que podamos ayudarte, comunícate con tu gerente técnico de cuentas o con el equipo de cuentas de Google Cloud.