Idea Gratis #1

¿Cómo será el futuro de los conciertos?

Soy un fanático de la música, de los conciertos, y pese a que disfruto muchísimo desarrollando soluciones tecnológicas, tengo una deuda con la industria de la música.

Hay algo que me llama de vuelta a la industria de los eventos, las lucces, la adrenalina, hacer que miles de personas entren en un estado de euforia en sincronía… hay algo ahí… pero bueno.

La industria de los shows es billonaria y mueve datos increíbles (data de 2019)

55.7

TICKETS
VENDIDOS

$11.5

BILLONES
EN REVENUE

500

MILLONES
IG STORIES

En el minuto 6:05 del concierto luego de un salto en el aire, una vuelta en 180 grados y una toma que se mueve de derecha a izquierda sin parar… el color de ropa de toda la gente sobre el escenario, incluyendo la mismisima Beyonce, cambia de color.

¿Vieron bien? Por favor, vean de nuevo.

Repetí la escena una y otra y otra vez sin lograr encontrar respuesta a lo que acababa de ver.

Me di hartas vueltas y pensé varios casos incluyendo After FX o algún tipo de edición del video pero la respuesta era más simple.

Fuera de una dirección creativa increíble y una dirección fotográfica de otro planeta, la respuesta era bastante obvia: El concierto fue realizado en dos fin de semanas distintos, y en cada uno se usó ropa distinta para el equipo.

Ok. Suena fácil, pero la coordinación de movimientos, cámara y demases para lograr esa escena sigue dejándome con la boca abierta.

Esta escena marcó un antes y un después en mi cabeza. Muchas preguntas comenzaron a surgir de manera acelerada y ahí comenzó el proceso creativo, el proceso de innovación e invención.

Si tengo una base de audio estable, y dos conciertos técnicamente iguales, ¿Podría crear una manera automática de moverme de un concierto a otro?.

Si la canción es la misma, y tengo N grabaciones del mismo y u otro concierto, ¿Podría crear una manera de moverme en distintos puntos de vista, pero de la misma canción?

De este tipo de preguntas, en mi cabeza, aparecieron cientos. Y ahí se prendió la ampolleta.

¿Qué pasa si tomo todos los videos y fotos de un concierto y recreo el concierto?

¿Qué pasaría si tomo todos los videos de un concierto y lo recreo no sólo en 2D pero creo un render en 3D para su consumo a través de Oculus y Realidad Virtual?

Pasemos de idea a realidad…

Hoy en día, la experiencia de “re-vivir” un concierto a través de plataformas digitales es pobre.

Si tienes suerte, encuentras algo en youtube que será dado de baja en breve.

Si tienes suerte, encuentras pedacitos del concierto a través de apps como Instagram o Tik Tok…30 segundos del conciertos aquí, 45 segundos del concierto acá… pero no hay ninguna solución que te permita disfrutar y ver qué pasó en el concierto de buena manera.

¿Qué pasaría si…?

Pongámonos creativos.

¿Qué pasaría si tomamos todo el contenido registrado en un concierto y lo metemos en una “licuadora”?

¿Qué pasaría si esta “licuadora”, en adelante algoritmo, toma la información, indexa su información básica, en adelante metadata?

¿Qué pasaría si este algoritmo, toma la metadata y separa además las pistas de audio y video?

¿Qué pasaría si este algoritmo tiene la capacidad de identificar las mejores pistas de audio y las mejores pistas de video?

¿Qué pasaría si este algoritmo tiene la capacidad de entender a qué parte de la canción corresponde cada pedacito de video?

¿Qué pasaría si este algortimo tiene la capacidad de unir las piezas de audio y video por separado, para recrear el concierto?

Vamos a definir la solución a través de un sistema que es capaz de realizar este procesamiento. Aquí veremos conceptos de Inteligencia Artificial, Algoritmos de Reconocimiento, Procesamiento de Metadata y otros temas muy entretenidos (para nosotros al menos)

El Algoritmo

“Es que mi algoritmo me muestra eso”

Cualquier Persona +50 Años

En palabras simples, un algortimo es una receta.

Quieres hacer una pizza, donde la pizza es el output y los pasos para realizarla serían el algoritmo.

Para lograr desarrollar una solución que permita recrear conciertos, tomando la suma de todos los videos, imágenes y audio de un evento, debemos definir parámetros y una serie de pasos a realizar.

Nuestro sistema recibirá videos, que serán separados en sus capas de imagen y audio para procesar a través de un algoritmo que logre indexar la mayor cantidad de datos de cada pista (audio y video separado) demanera de tener un directorio de contenido que luego puede ser unido según como estimemos, para asegurar la mejor representación del concierto.

Para esto definiremos a gran escala las capas de nuestra receta, o más aún, algoritmo:

Procesamiento de Video
Procesamiento de Audio
Unión de contenido

Esta capa del sistema se preocupa de recibir y colectar contenido a través de distintas fuentas.

Esta capa separa e indexa la información del contenido para identificar algunos datos como:

  • Grado de estabilidad del video
  • Información del dispositivo que grabó el contenido
  • Resolución
  • Calidad de video
  • Perspectiva: Cuánto del video muestra contenido relevante para el usuario vs contenido no útil.
  • % Cara vs Escenario: Se nos ocurrió agregar un parámetro para identificar si el video es en mayoría selfie o apunta directamente al escenario, de esta manera podemos filtrar también qué videos muestran más del show y cuáles no.
  • Distancia del escenario: Creemos relevante identificar y/o crear una referencia del punto de donde se grabó este video segúnla posición y distancia del escenario.

Esto es sólo una pincelada a un dataset enorme de parámetros que pueden ser identificados en tiempo real utilizando técnicas de Computer Vision para filtrar y asegurar la calidad de video que deseamos.

Esta parte se enfoca en procesar únicamente el audio, separado del video para analizar distintos marcadores y metadata que garanticen quedarnos con el contenido de mejro calidad

Aquí nos enfocamos en:

  • Calidad de sonido
  • BPM
  • Nivel de “ruido”
  • Calidad General
  • Pista Original: Luego de entender qué canción es la que se está grabando, creamos un marcador para entender en qué parte de la canción original está ubicado este corto.

El objetivo es filtrar el audio de mejor calidad, para recrear una versión completa de la canción grabada.

De esta manera, podemos recrear el concierto sumando los distintos cortos de audio separados de cada archivo de video recolectado por el sistema.

En este punto, el sistema ya debe tener un directorio con
N-videos y N-pistas de audio con la mejor calidad.

Sólo queda en este punto, comenzar a unir las piezas de video y audio, para re-construir el concierto usando la sumatoria de los distintos ángulos de grabación y pistas de audio recolectadas.

Una gracia de este sistema es que, al tener una gran cantidad de contenido, podemos crear múltiples versiones del mismo evento, lo que permitiría a los usuarios cambiar de punto de vista a medida que avanza el video.

Esta es una representación gráfica del output del algoritmo, que basa todo el orden del contenido según la canción original.

Un output exitoso de nuestro sistema, permitiría sincronizar múltiples videos/ángulos del concierto con una pista de audio base. A continuación podrán ver 4 ángulos distintos de un concierto, sincronizados en el mismo tiempo en base a la canción original.

Oh! ¿Y el Metaverso?

Los orígenes de esta idea fueron para un mundo 2D, para consumo en plataformas tipo Instagram, Tik-Tok, Youtube… pero fue al ratito que nos encontramos con una tecnología llamada NeRF o Neural Radiance Fields que ampliaría el concepto presentado hacia el mundo de la realidad virtual.