Google Cloud se asoció con The New York Times para ayudarlos a digitalizar su vasta colección de fotos. Para ello, utilizan numerosas herramientas dentro de Google Cloud Platform que les permiten almacenar de forma segura sus imágenes, acceder a una mejor interfaz para encontrar fotos y descubrir nuevas perspectivas a partir de los datos escritos en el reverso de las imágenes.
Durante más de 100 años, The Times ha archivado aproximadamente de cinco a siete millones de sus fotos antiguas en un lugar llamado la "morgue", un depósito que alberga cientos de archivadores ubicado tres pisos bajo tierra cerca de sus oficinas, en Times Square. Muchas de las fotos se han almacenado en carpetas y no se han vuelto a usar en años. Si bien hay un catálogo de tarjetas que proporciona una visión general del contenido del archivo, hay muchos detalles en las fotos que no se pueden indexar.

Morgue7.jpg
Foto de Earl Wilson para The New York Times

Preservando la historia visual

La morgue contiene fotos de finales de siglo XIX que representan un enorme valor histórico que no se encuentra en ningún otro lugar del mundo. En 2015, una tubería rota inundó la biblioteca de archivos, lo que puso en riesgo a toda la colección. Afortunadamente, el daño fue menor, pero ese suceso desencadenó la siguiente pregunta: ¿cómo se pueden almacenar de manera segura algunos de los recursos físicos más preciados de la empresa?
"La morgue es un tesoro de documentos perecederos que son una crónica invaluable, no solo de la historia de The Times, sino de casi más de un siglo de eventos internacionales que han definido al mundo moderno", afirma Nick Rockwell, director de Tecnología de The New York Times.
No solo las imágenes contienen información valiosa. En muchos casos, la parte posterior de las fotos incluye la hora y el lugar donde se tomó. Rockwell agrega: "Durante años, el personal del departamento de fotografía y el área de negocios han estado explorando posibles formas de digitalizar las fotos de la morgue. Pero hasta el año pasado, la idea de un archivo digitalizado parecía fuera de alcance".
Para preservar esta historia invaluable y darle a The Times la posibilidad de mejorar sus informes con incluso más narraciones visuales y contexto histórico, The Times está digitalizando su archivo con Cloud Storage para almacenar escaneos en alta resolución de todas las imágenes de la morgue.
Cloud Storage es nuestro sistema para almacenar objetos que brinda a clientes como The Times una solución de administración automática, almacenamiento en diferentes regiones geográficas y una interfaz y API de administración fáciles de usar.

Creando un sistema de administración de recursos

Almacenar imágenes de alta resolución no es suficiente para crear un sistema que los editores de fotos puedan usar fácilmente. Para que un sistema de administración de recursos funcione correctamente, debe permitir que los usuarios puedan navegar y buscar fotos sin complicaciones. The Times creó una canalización que almacena y procesa las fotos, y usará la tecnología de la nube para procesar y reconocer texto, escritura a mano y otros detalles que se pueden encontrar en las imágenes.
Así es como funciona. Una vez que se ingiere una imagen en Cloud Storage, The Times utiliza Cloud Pub/Sub para iniciar el procesamiento y realizar varias tareas. Las imágenes se redimensionan a través de los servicios que se ejecutan en Google Kubernetes Engine (GKE), y los metadatos de la imagen se almacenan en una base de datos PostgreSQL que se ejecuta en Cloud SQL, el servicio de base de datos totalmente administrado de Google.
Cloud Pub/Sub ayudó a The New York Times a crear esta canalización sin necesidad de crear API complejas o sistemas de procesos empresariales. Además, como es una solución totalmente administrada, no se pierde tiempo manteniendo la infraestructura subyacente.
Para cambiar el tamaño de las imágenes y modificar sus metadatos, The Times utiliza los programas de línea de comandos de código abierto "ImageMagick" y "ExifTool". Agregaron estas herramientas con servicios de Go a las imágenes de Docker para ejecutarlas en GKE de forma escalable y con un mínimo esfuerzo administrativo. Agregar más capacidad para procesar más imágenes es algo trivial, y The Times puede detener o iniciar su clúster Kubernetes cuando no es necesario. Las imágenes también se guardan en depósitos multirregionales de Cloud Storage para que estén disponibles en varias ubicaciones.
La última pieza del archivo es el seguimiento de ambas imágenes y sus metadatos a medida que avanzan a través de los sistemas de The Times. Cloud SQL es una gran opción. Para los desarrolladores del reconocido periódico, esta herramienta proporciona una instancia estándar de PostgreSQL, como un servicio totalmente administrado, que elimina la necesidad de instalar nuevas versiones, aplicar parches de seguridad o configurar opciones de replicación complejas. Cloud SQL les permite a los ingenieros utilizar una solución SQL estándar de forma sencilla.

Aprendizaje automático para obtener información adicional

Almacenar las imágenes es solo la mitad de la historia. Para hacer que un archivo como la morgue de The Times sea más accesible y útil, se deben aprovechar las funciones adicionales de GCP. En el caso de The Times, uno de los mayores desafíos al escanear un archivo fotográfico ha sido agregar datos sobre el contenido de las imágenes. La API de Cloud Vision puede ayudar con es tarea.
A modo de ejemplo, echemos un vistazo a esta foto de The Times de la antigua Penn Station. Aquí se puede apreciar el frente y el reverso de la foto:

NYT.png
Es una hermosa imagen en blanco y negro, pero al no tener contexto adicional, no puede apreciarse bien el frente. La parte posterior contiene una gran cantidad de información útil, y la API de Cloud Vision puede ayudarnos a procesarla, almacenarla y leerla. Cuando enviamos la parte posterior de la imagen a la API sin procesamiento adicional, podemos ver que detecta el siguiente texto original en inglés:

NOV 27 1985JUL 28 1992Clock hanging above an entrance to the main concourse of Pennsylvania Station in 1942, and, right, exterior of the station before it was demolished in 1963.PUBLISHED IN NYCRESORT APR 30 ‘72The New York Time THE WAY IT WAS - Crowded Penn Station in 1942, an era “when only the brave flew - to Washington, Miami and assorted way stations.”Penn Station’s Good Old Days | A Buff’s Journey into Nostalgia( OCT 3194RAPR 20072PHOTOGRAPH BY The New York Times Crowds, top, streaming into the old Pennsylvania Station in New Yorker collegamalan for City in 1942. The former glowegoyercaptouwd a powstation at what is now the General Postadigesikha designay the firm of Hellmuth, Obata & Kassalariare accepted and financed.Pub NYT Sun 5/2/93 MetroTHURSDAY EARLY RUN o cos x ET RESORTEB 11 1988RECEIVED DEC 25 1942 + ART DEPT. FILESThe New York Times Business at rail terminals is reflected in the hotelsOUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)

Este es el resultado real de nuestra API de Cloud Vision sin procesamiento previo de la imagen. Por supuesto, la transcripción de texto digital no es perfecta, pero es más rápida y económica que las alternativas para procesar millones de imágenes.

Llevando el pasado al futuro

Esto es solo el comienzo de lo que las empresas pueden hacer con archivos físicos, ya que la API de Vision permite identificar objetos, lugares e imágenes. Por ejemplo, si analizamos la foto en blanco y negro de arriba usando la API de Cloud Vision con detección de logotipo, podemos ver que se reconoce Pennsylvania Station. Además, se puede usar AutoML para identificar mejor las imágenes de las colecciones utilizando un corpus de imágenes ya analizadas.
Podría utilizarse la API de Cloud Natural Language para agregar información semántica al texto reconocido. Por ejemplo, si analizamos el texto "The New York Time THE WAY IT WAS - Crowded Penn Station in 1942, an era when only the brave flew - to Washington, Miami and assorted way stations.", identifica correctamente "Penn Station", "Washington" y "Miami" como ubicaciones, y clasifica toda la oración en la categoría "viaje" y la subcategoría "autobús y tren".
Ayudar a The New York Times a transformar su archivo fotográfico encaja perfectamente con la misión de Google de organizar la información del mundo y hacer que sea universalmente accesible y útil. Esperamos que al compartir lo que hicimos, podamos inspirar a más organizaciones (no solo a editores) a recurrir a la nube y a utilizar otras herramientas, como la API de Cloud Vision, Cloud Storage, Cloud Pub/Sub y Cloud SQL, para preservar y compartir su valiosa historia.
Visita nuestro sitio para obtener más información sobre la IA y el aprendizaje automático en Google Cloud.

Descubre cómo Google Cloud ayuda a The New York Times a preservar y organizar su archivo fotográfico.