Subtitulado automático: IA de UC3M mejora la precisión hasta 10.

Investigadores de la Universidad Carlos III de Madrid demuestran que su tecnología de IA reduce drásticamente los errores y la omisión de contenido en los subtítulos de televisión en directo, mejorando la accesibilidad para personas con discapacidad auditiva.

Un equipo de investigadores del Instituto para el Desarrollo Tecnológico y la Promoción de la Innovación de la Universidad Carlos III de Madrid (UC3M) ha desarrollado y evaluado un sistema de subtitulado automático para televisión en directo que supera significativamente en calidad a los métodos semiautomáticos utilizados actualmente. El estudio, publicado en la revista Universal Access in the Information Society, revela que la nueva tecnología es más precisa, tiene menor latencia y evita la pérdida de información crucial para el espectador.

El análisis comparó dos sistemas en cuatro programas de noticias reales de un canal de televisión español. El primero, un sistema semiautomático basado en "respeaking" (un profesional repite y reformula el audio para un software de reconocimiento de voz), es el método usado habitualmente por la cadena. El segundo es el nuevo sistema totalmente automático, que procesa el audio original de la emisión sin intervención humana. Los resultados muestran una mejora drástica en la calidad y fidelidad de los subtítulos.

La precisión se midió con la Tasa de Error de Palabra (WER, por sus siglas en inglés), un estándar en la industria. El sistema automático de la UC3M obtuvo una tasa de error de entre el 3,76% y el 7,29%, una calidad calificada como "excelente" o "buena". En contraste, el sistema de "respeaking" arrojó una tasa de error de entre el 32% y el 44%, considerada "deficiente". La principal causa de este bajo rendimiento fue la omisión de contenido: el 94% de los errores del método actual consistían en palabras o frases enteras que no se transcribían para poder mantener el ritmo de la emisión.

Otro factor clave analizado fue la latencia, es decir, el retraso entre el audio y la aparición del subtítulo. El sistema automático logró una latencia estable de aproximadamente 4 segundos, cumpliendo con la normativa española (máximo 8 segundos). El método de "respeaking", sin embargo, presentaba un retraso medio de entre 6,9 y 12,2 segundos, superando a menudo el límite legal y dificultando el seguimiento del programa, especialmente para las personas que leen los labios.

⚠ Cita sugerida a revisar:
«Nuestro objetivo era garantizar el derecho a una información completa y accesible. Los sistemas actuales, aunque bienintencionados, a menudo sacrifican gran parte del contenido original para no quedarse atrás. Con esta tecnología demostramos que es posible ofrecer subtítulos que son a la vez precisos, rápidos y fieles al discurso original, eliminando una importante barrera de acceso a la información en tiempo real.»
Pendiente de confirmar con el equipo investigador antes de publicar.

Este estudio representa un primer paso fundamental hacia la implantación de sistemas de subtitulado totalmente automáticos y de alta calidad. Los resultados refuerzan la viabilidad de estas tecnologías para ofrecer una mejor experiencia a la comunidad sorda y con discapacidad auditiva, asegurando un acceso más equitativo a la información en directo. El equipo investigador continuará trabajando para optimizar la velocidad de presentación de los subtítulos sin comprometer la precisión ya alcanzada.

Diferencias clave: "Respeaking" vs. Subtitulado automático

El "respeaking" es una técnica semiautomática donde un profesional (el "respeaker") escucha el audio en directo en un entorno insonorizado y lo repite de forma clara y pausada a un software de reconocimiento de voz. A menudo, para no generar demasiado retraso, el "respeaker" debe parafrasear o resumir, lo que provoca la pérdida de contenido. El sistema automático desarrollado por la UC3M, en cambio, utiliza directamente el audio original de la emisión, procesándolo con avanzados modelos de inteligencia artificial para generar la transcripción sin intermediarios, lo que resulta en mayor fidelidad y menor latencia.

Sobre la investigación

El trabajo se enmarca en la línea de investigación de la UC3M para el desarrollo de tecnologías accesibles. Los resultados comparativos proporcionan, por primera vez, una evidencia sólida de que los sistemas automáticos sin intervención humana pueden ofrecer una calidad superior para el subtitulado en directo, un campo de estudio crucial para la inclusión.

Ficha Técnica

Título original: Comparative analysis between a respeaking captioning system and a captioning system without human intervention
Revista: Universal Access in the Information Society
Año: 2024 (publicado online en 2022)
DOI: 10.1007/s10209-022-00926-3
Autores: Adrian Ruiz-Arroyo, Angel Garcia-Crespo, Francisco Fuenmayor-Gonzalez, Roxana Rodriguez-Goncalves.

Un nuevo sistema de subtitulado automático es hasta 10 veces más preciso que los métodos actuales

Investigadores de la Universidad Carlos III de Madrid demuestran que su tecnología de IA reduce drásticamente los errores y la omisión de contenido en los subtítulos de televisión en directo, mejorando la accesibilidad para personas con discapacidad auditiva.

Sobre la investigación

Ficha Técnica

Más sobre Notas de prensa

Más allá del laboratorio: por qué un doctorado es la mejor escuela de habilidades para el siglo XXI

Más de agarciacrespo

Sem-Fit: La Inteligencia Artificial que Elige tu Hotel Ideal como un Experto Humano

Más allá de las estrellas: cómo la inteligencia artificial aprende tus gustos para encontrar el hotel perfecto

La televisión que cuida de nuestros mayores: un sensor invisible en el salón

Comentarios (0)

Asistente de Lectura AI