SABUESO: Búsqueda y acceso a la información contenida en el habla de recursos multimedia
- Financiado por el MICINN (TIN2009-07446)
- Investigador principal Amparo Varona
- Investigadores: Germán Bordel, Mikel Peñagarikano, Luis Javier Rodriguez, Amparo Varona, Maider Zamalloa, Mireia Diez
- Contratada: Silvia Nieto
- Período: 1/ene./2010 - 31/dic./2012
Resumen
El proyecto SABUESO tiene como objetivo hacer aportaciones científicas e introducir mejoras de tipo tecnológico en el sistema de indexado y búsqueda de contenidos multimedia desarrollado por el Grupo de Trabajo en Tecnologías Software (GTTS) de la UPV/EHU. Se dispone de una arquitectura sencilla y eficiente de recuperación de información sobre noticias de televisión (vídeo y audio monocanal) en la que es fácil sustituir/integrar nuevos módulos. El sistema se ha desarrollado para trabajar sobre audio en castellano, euskera e inglés.
Lo que se busca, desde un punto de vista científico, es realizar aportaciones en cuestiones teóricas fundamentales que lleven a mejoras significativas en el rendimiento del sistema. La primera tarea consistirá en diseñar y desarrollar plataformas de evaluación objetivas y subjetivas. Se pretende dar un impulso muy significativo a las prestaciones del sistema sobre todo en el backend de indexado: mejorar los módulos de clasificación de voz/no-voz, identificación y verificación de la lengua y verificación del locutor, estudiar y desarrollar técnicas para incrementar la robustez del reconocedor frente a las condiciones ambientales y de canal y aprovechar la información proporcionada por las medidas de confianza en la recuperación de información.
Desde un punto de vista tecnológico, se busca mejorar la estructura y la ergonomía de la interfaz de usuario y facilitar la migración a nuevas aplicaciones. En concreto se pretende desarrollar, a partir del anterior, un prototipo de recuperación de información sobre reuniones (audio multicanal, con micrófonos close-talk y far-field).
Las tecnologías desarrolladas en este proyecto, especialmente las de identificación de locutor e identificación de la lengua, se presentarán en campañas de evaluación internacionales organizadas por el NIST. Los avances científicos y tecnológicos se mostrarán en un prototipo accesible a través de una interfaz web, prototipo que se irá actualizando a medida que se avance en el desarrollo del proyecto.
El sistema en funcionamiento
Probar el sistema
Publicaciones
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition"
IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING; in print, 2011
Varona, A., Nieto, S., Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Diez, M.,
"A Spoken Document Retrieval System for TV Broadcast News in Spanish and Basque"
XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011
Rodriguez-Fuentes, L.J., Varona, A., Penagarikano, M., Diez, M., Bordel, G.,
"Spoken language recognition in conversational telephone speech and TV broadcast news (GLOSA)"
XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011
Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Díez, M., Bordel, G.,
"The Albayzin 2010 Language Recognition Evaluation"
Interspeech 2011; Florence, Italy, 28-31 August, 2011
Bordel, G., Nieto, Silvia, Penagarikano, M., Rodriguez-Fuentes, L.J., Varona, A.,
"Automatic Subtitling of the Basque Parliament Plenary Sessions Videos"
Interspeech 2011; Florence, Italy, 28-31 August, 2011
Varona, A., Penagarikano, M., Rodriguez-Fuentes, L.J., Bordel, G.,
"On the Use of Lattices of Time-Synchronous Cross-Decoder Phone Co-occurrences in a SVM-Phonotactic Language Recognition System"
Interspeech 2011; Florence, Italy, 28-31 August, 2011
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"Dimensionality Reduction for Using High-Order n-grams in SVM-Based Phonotactic Language Recognition"
Interspeech 2011; Florence, Italy, 28-31 August, 2011
Diez, M., Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"On the use of Dot Scoring for Speaker Diarization"
Iberian Conference on Pattern Recognition and Image Analysis (
IbPRIA? 2011); Las Palmas de Gran Canaria. Spain., 8-10 June, 2011
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"A Dynamic Approach to the Selection of High Order N-GRAMS in Phonotactic Language Recognition"
35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Prague, Czech Republic, 22-27 May, 2011
Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G.,
"A speaker recognition system based on sufficient-statistics-space channel-compensation and dot-scoring"
VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.135-138, Vigo, Spain, 10-12 November, 2010
Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Diez, M., Bordel, G.,
"Overview of the Albayzin 2010 Language Recognition Evaluation: database design, evaluation plan and preliminary analysis of results"
VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.309-316, Vigo, Spain, 10-12 November, 2010
Diez, M., Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"GTTS System for the Albayzin 2010 Speaker Diarization Evaluation"
VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.397-400, Vigo, Spain, 10-12 November, 2010
Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Diez, M., Bordel, G.,
"GTTS Systems for the Albayzin 2010 Audio Segmentation Evaluation"
VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.419-420, Vigo, Spain, 10-12 November, 2010
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"Using Cross-Decoder Co-Occurrences of Phone N-Grams in SVM-based Phonotactic Language Recognition"
Interspeech 2010; Makuhari, Japan, 26-30 September, 2010
Varona, A., Rodriguez-Fuentes, L.J., Penagarikano, M., Nieto, S., Diez, M., Bordel, G.,
"Search and access to information contained in the speech of multimedia resources"
XXV Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Valencia, Spain, 8-10 September, 2010
Varona, A., Penagarikano, M., Rodriguez-Fuentes, L.J., Diez, M., Bordel, G.,
"Verification of the four Spanish official languages on TV show recordings"
XXV Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Valencia, Spain, 8-10 September, 2010
Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G.,
"University of the Basque Country System for NIST 2010 Speaker Recognition Evaluation"
V Jornadas de Reconocimiento Biométrico de Personas; Huesca, Spain, 2-3 September, 2010
Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G.,
"University of the Basque Country System for NIST 2010 Speaker Recognition Evaluation"
2010 NIST Speaker Recognition Evaluation (SRE) Workshop; Brno, Czech Republic, 24-25 June, 2010
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition"
Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010;
Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A.,
"The Albayzin 2008 Language Recognition Evaluation"
Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010
Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A., Diez, M.,
"KALAKA: A TV Broadcast Speech Database for the Evaluation of Language Recognition Systems"
7th International Conference on Language Resources and Evaluation; Valleta, Malta, 17-23 May, 2010
Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G.,
"Using Cross-decoder Phone Coocurrences in Phonotactic Language Recognition"
35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Dallas(Texas), USA, March, 2010