S07-07 13

Metadatado automático en el archivo de RTVE: un enfoque de innovación tecnológica

Compartir en TWITTER/FACEBOOK/LINKEDIN

Deja tu comentario

Participa en esta ponencia enviádole tu pregunta o comentario a los autores

Añadir comentario

Firmantes

profile avatar
Virginia Bazán-GilUniversidad Carlos III

Enfoque

La incorporación de la inteligencia artificial (IA) en la gestión y análisis de contenidos audiovisuales está transformando la gestión de archivos de medios de comunicación. La automatización de tareas operativas ha mejorado la eficiencia y enriquecido los metadatos relacionados con los archivos. Este avance no solo tiene un impacto operativo, sino que también abre nuevas oportunidades para la investigación y el análisis de medios en la era digital. Un ejemplo de esta innovación se encuentra en Radio Televisión Española (RTVE), que ha liderado la integración de la IA en la gestión de su archivo. La gestión efectiva de estos contenidos es esencial para la emisión en vivo, la distribución en plataformas de video bajo demanda, la creación de nuevos contenidos y la preservación de su valor patrimonial. 

Este trabajo presenta el proyecto de metadatado automático desarrollado en RTVE entre 2021 y 2023. Una iniciativa, liderada por la Dirección de Estrategia Tecnológica y el Archivo de RTVE que tenía como objetivo mejorar la gestión de metadatos y llevar a cabo el análisis automático de aproximadamente 11,000 horas de contenidos audiovisuales en un año. 

El proceso se inició en 2020 con un equipo multidisciplinario de expertos en ingeniería y documentación. Se diseñó un flujo de trabajo en la nube para la selección y análisis de contenidos, que involucra la transcripción automática, segmentación por hablantes, reconocimiento de entidades, palabras clave y clasificación de contenido. Se enfatizó la importancia del control de calidad y se establecieron tasas de error máximas. 

La adjudicación del proyecto se realizó a través de concurso público y implementó en dos fases. La Fase I se extendió durante 5 meses y se centró en la definición y optimización del flujo de trabajo, la arquitectura del sistema y el control de calidad. Se procesaron 160 horas de contenido para evaluar el rendimiento del sistema. La Fase II marcó la entrada en producción, adaptando el flujo de trabajo a medida que se ganaba experiencia. Se procesaron entre 50 y 60 horas de contenido diario, incluyendo material antiguo y programas en emisión, demostrando la efectividad de la IA en los procesos de búsqueda y reutilización de los contenidos. 

El proyecto ha tenido un impacto positivo en RTVE al organizar cursos de formación en IA para los profesionales del archivo, lo que ha fomentado la adopción de estas tecnologías y ha generado grandes expectativas sobre su futuro desarrollo. También ha propiciado el debate sobre los cambios profesionales futuros entre los documentalistas. Este proyecto ha demostrado cómo la IA puede mejorar la eficiencia y la accesibilidad de los contenidos en RTVE. 

Los resultados de este proyecto han sido considerables. La IA ha agilizado las búsquedas y la recuperación de contenido específico en programas informativos y de entretenimiento. Además, ha permitido recuperar y poner en valor contenido antiguo que de otra manera habría permanecido inaccesible. Se han entrenado modelos de reconocimiento facial que han sido efectivos en la identificación de figuras en programas y eventos relevantes y se ha abierto un debate sobre los cambios profesionales futuros en el campo de los archivos audiovisuales. 

Preguntas y comentarios al autor/es

Hay 13 comentarios en esta ponencia

    • profile avatar

      Marcelo de Assis

      Comentó el 30/11/2023 a las 18:30:04

      ¡Felicitaciones por la investigación! Tengo dos preguntas:

      ¿Cuál fue el papel del profesional de la información en la concepción y ejecución del proyecto?

      ¿Cuál fue la metodología de entrenamiento del algoritmo para la clasificación de la información?

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 04/12/2023 a las 20:24:12

        Hola Marcelo, muchas gracias por tu interés en nuestra propuesta.
        Desde la fase de diseño y planificación este ha sido un proyecto multidisciplinar. El equipo del archivo por su parte, ha definido los objetivos en cuanto a funcionalidades, horas analizadas, tipo de material que se ha procesado, criterios de calidad, etc. El equipo de innovación, formado en su mayoría por ingenieros, ha sido capaz de comprender las necesidades del archivo y de diseñar una arquitectura del sistema capaz de dar respuesta a estas necesidades. El apoyo del área de Sistemas ha sido esencial también para que el flujo de trabajo fuera constante.
        Respecto al entrenamiento de los algoritmos, en RTVE no hemos participado en el entrenamiento de los algoritmos. Sí que hemos colaborado en la adaptación de algunos algoritmos, como el que detectaba la pista de audio que debía analizarse, pero no hemos hemos influenciado de manera directa en ellos. Esta parte era responsabilidad del adjudicatario (VSN) y de sus proveedores de IA (Etiqmedia y Azure).
        Espero haber aclarado sus dudas
        Virginia

    • profile avatar

      Miguel Ángel Martín-Pascual

      Comentó el 29/11/2023 a las 13:53:50

      Hola Virginia y Carmen. Felicidades. Conozco el trabajo intenso que hay detrás. Es interesante ver omo nos sumergimos en otra realidad que ya ha cambiado. Quería preguntaros sobre la manera de relacionarnos en el futuro con estos sistemas de IA y metadatado. ¿Podremos acceder a recuerdos privados y hacer un sistema parecido con nuestras memorias? Algo parecido a un lago de datos personal que nos permita recuperar de manera semejante a un sistema de documentación. No pienso en Black mirror, pero si en sistemas de IA que concentren nuestras vivencias diarias para recurrir a ellas cuando sea necesario. Creo que inventos como el Pin AI van en esa dirección. ¿Qué más va pasar? Abrazos.

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 04/12/2023 a las 20:27:08

        Querido Miguel Ángel, gracias por tus comentarios.
        Creo que tú eres el verdadero experto en investigaciones sobre el cerebro humano. Lo que si parece evidente es que la potencia de estas herramientas nos puede ayudar a personalizar de manera evidente el acceso y la puesta en valor de los archivos.
        En todo caso siempre podemos explorar la posibilidad juntos ;-)
        Un abrazo
        Virginia

    • profile avatar

      Javier Trabadela-Robles

      Comentó el 28/11/2023 a las 20:03:12

      Buenas. Enhorabuena por el trabajo presentado y por la labor realizada hasta la fecha. Qué necesario es que se pueda, no sólo conservar, sino también visionar y reutilizar el patrimonio audiovisual que conserva RTVE, para lo que resulta imprescindible que se realicen estos procesos. Dicho esto, me gustaría preguntarles si pueden comentar algo sobre ese debate necesario que dicen que se ha dado en torno a la figura del documentalista y, supongo, sus funciones actuales y futuras. ¿Qué piensan los profesionales sobre estos procesos automáticos? ¿Temen por su puesto de trabajo? ¿Qué funciones creen Vds. que deberían seguir haciendo los documentalistas y cuáles las IA? (Qué difícil :-) ) Muchas gracias y saludos cordiales,

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 29/11/2023 a las 11:32:12

        Hola Javier

        Muchas gracias por tu interés en nuestro proyecto. Profundizo en nuestro plan para la integración de la IA en el trabajo de los documentalistas en el archivo de programas de TVE. Desde el principio supimos que la formación era esencial para entender las tecnologías y la finalidad del proyecto.

        Entre enero de 2022 y enero de 2023 celebramos 8 cursos de formación para profesionales de RTVE, incluidos archiveros y técnicos.

        Los cursos se organizaron en 4 sesiones:

        - Una Introducción a las tecnologías de IA para introducir a los profesionales en las tecnologías y alinear sus expectativas con el rendimiento real.
        - Una sesión centrada en el uso de la IA en los archivos de radiodifusión
        - Una tercera sesión sobre la ejecución del proyecto, desde la licitación hasta la definición del flujo de trabajo, las áreas implicadas, los retos y las mejoras, los departamentos y los proveedores de servicios.
        - Una última sesión sobre el rendimiento y los resultados

        Estas sesiones fueron dirigidas por profesores de la Universidad de Zaragoza, personal técnico del departamento de innovación y archiveros de informativos y programas que trabajan en el proyecto.

        También organizamos 4 grupos de discusión con catalogadores e investigadores. Les planteamos 5 preguntas abiertas que puede ver en la pantalla. Tanto los catalogadores como las personas dedicadas a la difusión de los fondos nos proporcionaron respuestas similares:
        - La catalogación manual disminuirá en el futuro y se aplicará sólo a los contenidos más relevantes para la producción.-
        - Los catalogadores se centrarán en el control de calidad y la formación de algoritmos.
        -La IA proporciona una mejor capacidad de procesamiento/trabajo, transcripciones precisas para búsquedas de quién dijo qué, pero también datos masivos no estructurados,

        Por otro lado, la catalogación humana proporciona:
        Precisión
        Relevancia
        Estandarización
        Normalización
        Alto nivel de abstracción
        Capacidad para interpretar las imágenes en función de las necesidades de los usuarios y las limitaciones legales de uso.

        No se trata de integrar a las humas en el bucle de la IA, sino al revés. Queremos que los archiveros se sientan capacitados y no amenazados por el cambio tecnológico. ¿Y cómo lo vamos a hacer?

        - Utilizando la IA sólo cuando se demuestre que funciona.
        - Aplicando distintos niveles de catalogación en función de las diferentes necesidades de los usuarios y del tipo y relevancia del contenido.

        El próximo día 21 de diciembre se publicará en la Web de FIAT/IFTA (https://fiatifta.org/seminar/media-management-seminar-2023/) la grabación de una presentación en la que expusimos con detalle los resultados de este trabajo.

        • profile avatar

          Javier Trabadela-Robles

          Comentó el 30/11/2023 a las 13:43:47

          Hola Virginia.
          Muchas gracias por la respuesta tan detallada. Es interesantísimo :-)
          Os deseo que siga siendo todo muy satisfactorio.
          Saludos y gracias de nuevo.

    • profile avatar

      Angel Mancebo Muñoz

      Comentó el 28/11/2023 a las 17:02:21

      Perdón, pero se me acaba de ocurrir otra cuestión ¿sería posible hacer lo mismo pero con archivos de sólo audio? Obviando por supuesto las aportaciones que sólo hace el vídeo como reconocimiento de caras.

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 29/11/2023 a las 11:36:29

        Hola Ángel

        Muchas gracias por tus preguntas.

        Por supuesto, es posible aplicar IA en archivos de radio, especialmente Tecnologías del Audio y del Habla y Procesamiento de Lenguaje Natural. Los grandes modelos de lenguaje (LLM en inglés) han favorecido el desarrollo de aplicaciones hasta ahora inpensables. Aquí te dejo dos referencias de trabajos sobre IA y medios de comunicación, ambos disponibles en español e inglés

        Bazán-Gil, V. (2023). Artificial intelligence applications in media archives. Profesional De La información Information Professional, 32(5). https://doi.org/10.3145/epi.2023.sep.17

        Bazán-Gil, V., Pérez-Cernuda, C., Marroyo-Núñez, N., Sampedro-Canet, P., & De-Ignacio-Ledesma, D. (2021). Inteligencia artificial aplicada a programas informativos de radio. Estudio de caso de segmentación automática de noticias en RNE. Profesional De La información Information Professional, 30(3). https://doi.org/10.3145/epi.2021.may.20

    • profile avatar

      Angel Mancebo Muñoz

      Comentó el 28/11/2023 a las 17:01:21

      Hola, muchas gracias por la interesantísima información que nos proporcionáis. Mi cuestión es ¿tenéis conocimiento de cuánto trabajo se ha necesitado una vez se ha hecho el etiquetado automático de revisión por parte de humanos? o ¿no ha sido necesaria tal revisión?

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 29/11/2023 a las 11:39:39

        Hola Ángel
        El control de calidad sigue siendo necesario pero ha evolucionado en las distintas fases del proyecto y, sobre todo, ha sido muy distinto dependiendo de las características del programa.
        te invito a seguir la web de FIAT/IFTA www.fiatifta.org donde podrás encontrar a partir de diciembre una presentación sobre el tema.

    • profile avatar

      Marta Sánchez Esparza

      Comentó el 28/11/2023 a las 12:37:37

      Enhorabuena por el proyecto de metadatado. Interesantísimo. ¿Será posible reconstruir voces y rostros con IA a partir del archivo de RTVE?

      • profile avatar

        Virginia Bazán-Gil

        Comentó el 29/11/2023 a las 11:43:41

        Hola Marta
        Gracias por tu pregunta. Sin duda cualquier archivo media puede ser la base a para trabajar con herramientas de IA generativa, pero hay una serie de consideraciones éticas y limitaciones legales que es necesario tener en cuenta. En RTVE se ha trabajado con voces artificiales en varios proyectos (incluido el video que hay en estas presentación). Os dejo por aquí un par de referencias:

        Proyecto de elecciones: https://www.rtveia.es./
        Hiperia, el presentador 100% IA de RTVE https://www.rtve.es/rtve/20230918/rtve-gana-premio-ibc-2023-impacto-social/2456144.shtml


Deja tu comentario

Lo siento, debes estar conectado para publicar un comentario.

Organizan

Egregius congresos

Colaboran

Egregius ediciones