Investigadores de la Universidad Carlos III de Madrid demuestran que su tecnología de IA reduce drásticamente los errores y la omisión de contenido en los subtítulos de televisión en directo, mejorando la accesibilidad para personas con discapacidad auditiva.
Un equipo de investigadores del Instituto para el Desarrollo Tecnológico y la Promoción de la Innovación de la Universidad Carlos III de Madrid (UC3M) ha desarrollado y evaluado un sistema de subtitulado automático para televisión en directo que supera significativamente en calidad a los métodos semiautomáticos utilizados actualmente. El estudio, publicado en la revista Universal Access in the Information Society, revela que la nueva tecnología es más precisa, tiene menor latencia y evita la pérdida de información crucial para el espectador.
El análisis comparó dos sistemas en cuatro programas de noticias reales de un canal de televisión español. El primero, un sistema semiautomático basado en "respeaking" (un profesional repite y reformula el audio para un software de reconocimiento de voz), es el método usado habitualmente por la cadena. El segundo es el nuevo sistema totalmente automático, que procesa el audio original de la emisión sin intervención humana. Los resultados muestran una mejora drástica en la calidad y fidelidad de los subtítulos.
La precisión se midió con la Tasa de Error de Palabra (WER, por sus siglas en inglés), un estándar en la industria. El sistema automático de la UC3M obtuvo una tasa de error de entre el 3,76% y el 7,29%, una calidad calificada como "excelente" o "buena". En contraste, el sistema de "respeaking" arrojó una tasa de error de entre el 32% y el 44%, considerada "deficiente". La principal causa de este bajo rendimiento fue la omisión de contenido: el 94% de los errores del método actual consistían en palabras o frases enteras que no se transcribían para poder mantener el ritmo de la emisión.
Otro factor clave analizado fue la latencia, es decir, el retraso entre el audio y la aparición del subtítulo. El sistema automático logró una latencia estable de aproximadamente 4 segundos, cumpliendo con la normativa española (máximo 8 segundos). El método de "respeaking", sin embargo, presentaba un retraso medio de entre 6,9 y 12,2 segundos, superando a menudo el límite legal y dificultando el seguimiento del programa, especialmente para las personas que leen los labios.
⚠ Cita sugerida a revisar:
«Nuestro objetivo era garantizar el derecho a una información completa y accesible. Los sistemas actuales, aunque bienintencionados, a menudo sacrifican gran parte del contenido original para no quedarse atrás. Con esta tecnología demostramos que es posible ofrecer subtítulos que son a la vez precisos, rápidos y fieles al discurso original, eliminando una importante barrera de acceso a la información en tiempo real.»
Pendiente de confirmar con el equipo investigador antes de publicar.
Este estudio representa un primer paso fundamental hacia la implantación de sistemas de subtitulado totalmente automáticos y de alta calidad. Los resultados refuerzan la viabilidad de estas tecnologías para ofrecer una mejor experiencia a la comunidad sorda y con discapacidad auditiva, asegurando un acceso más equitativo a la información en directo. El equipo investigador continuará trabajando para optimizar la velocidad de presentación de los subtítulos sin comprometer la precisión ya alcanzada.
Diferencias clave: "Respeaking" vs. Subtitulado automático
El "respeaking" es una técnica semiautomática donde un profesional (el "respeaker") escucha el audio en directo en un entorno insonorizado y lo repite de forma clara y pausada a un software de reconocimiento de voz. A menudo, para no generar demasiado retraso, el "respeaker" debe parafrasear o resumir, lo que provoca la pérdida de contenido. El sistema automático desarrollado por la UC3M, en cambio, utiliza directamente el audio original de la emisión, procesándolo con avanzados modelos de inteligencia artificial para generar la transcripción sin intermediarios, lo que resulta en mayor fidelidad y menor latencia.
Sobre la investigación
El trabajo se enmarca en la línea de investigación de la UC3M para el desarrollo de tecnologías accesibles. Los resultados comparativos proporcionan, por primera vez, una evidencia sólida de que los sistemas automáticos sin intervención humana pueden ofrecer una calidad superior para el subtitulado en directo, un campo de estudio crucial para la inclusión.
Ficha Técnica
Título original: Comparative analysis between a respeaking captioning system and a captioning system without human intervention
Revista: Universal Access in the Information Society
Año: 2024 (publicado online en 2022)
Autores: Adrian Ruiz-Arroyo, Angel Garcia-Crespo, Francisco Fuenmayor-Gonzalez, Roxana Rodriguez-Goncalves.
Comentarios (0)
Aún no hay comentarios
Sé el primero en compartir tu opinión sobre este artículo.