r9 - 28 Jun 2011 - 16:01:37 - AmparoVaronaYou are here: TWiki >  Main Web  > SabuesoProject

SABUESO: Búsqueda y acceso a la información contenida en el habla de recursos multimedia

  • Financiado por el MICINN (TIN2009-07446)
  • Investigador principal Amparo Varona
  • Investigadores: Germán Bordel, Mikel Peñagarikano, Luis Javier Rodriguez, Amparo Varona, Maider Zamalloa, Mireia Diez
  • Contratada: Silvia Nieto
  • Período: 1/ene./2010 - 31/dic./2012

Resumen

El proyecto SABUESO tiene como objetivo hacer aportaciones científicas e introducir mejoras de tipo tecnológico en el sistema de indexado y búsqueda de contenidos multimedia desarrollado por el Grupo de Trabajo en Tecnologías Software (GTTS) de la UPV/EHU. Se dispone de una arquitectura sencilla y eficiente de recuperación de información sobre noticias de televisión (vídeo y audio monocanal) en la que es fácil sustituir/integrar nuevos módulos. El sistema se ha desarrollado para trabajar sobre audio en castellano, euskera e inglés. Lo que se busca, desde un punto de vista científico, es realizar aportaciones en cuestiones teóricas fundamentales que lleven a mejoras significativas en el rendimiento del sistema. La primera tarea consistirá en diseñar y desarrollar plataformas de evaluación objetivas y subjetivas. Se pretende dar un impulso muy significativo a las prestaciones del sistema sobre todo en el backend de indexado: mejorar los módulos de clasificación de voz/no-voz, identificación y verificación de la lengua y verificación del locutor, estudiar y desarrollar técnicas para incrementar la robustez del reconocedor frente a las condiciones ambientales y de canal y aprovechar la información proporcionada por las medidas de confianza en la recuperación de información. Desde un punto de vista tecnológico, se busca mejorar la estructura y la ergonomía de la interfaz de usuario y facilitar la migración a nuevas aplicaciones. En concreto se pretende desarrollar, a partir del anterior, un prototipo de recuperación de información sobre reuniones (audio multicanal, con micrófonos close-talk y far-field). Las tecnologías desarrolladas en este proyecto, especialmente las de identificación de locutor e identificación de la lengua, se presentarán en campañas de evaluación internacionales organizadas por el NIST. Los avances científicos y tecnológicos se mostrarán en un prototipo accesible a través de una interfaz web, prototipo que se irá actualizando a medida que se avance en el desarrollo del proyecto.

El sistema en funcionamiento

Probar el sistema

Publicaciones

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition" IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING; in print, 2011

Varona, A., Nieto, S., Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Diez, M., "A Spoken Document Retrieval System for TV Broadcast News in Spanish and Basque" XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011

Rodriguez-Fuentes, L.J., Varona, A., Penagarikano, M., Diez, M., Bordel, G., "Spoken language recognition in conversational telephone speech and TV broadcast news (GLOSA)" XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011

Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Díez, M., Bordel, G., "The Albayzin 2010 Language Recognition Evaluation" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Bordel, G., Nieto, Silvia, Penagarikano, M., Rodriguez-Fuentes, L.J., Varona, A., "Automatic Subtitling of the Basque Parliament Plenary Sessions Videos" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Varona, A., Penagarikano, M., Rodriguez-Fuentes, L.J., Bordel, G., "On the Use of Lattices of Time-Synchronous Cross-Decoder Phone Co-occurrences in a SVM-Phonotactic Language Recognition System" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Dimensionality Reduction for Using High-Order n-grams in SVM-Based Phonotactic Language Recognition" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Diez, M., Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "On the use of Dot Scoring for Speaker Diarization" Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA? 2011); Las Palmas de Gran Canaria. Spain., 8-10 June, 2011

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "A Dynamic Approach to the Selection of High Order N-GRAMS in Phonotactic Language Recognition" 35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Prague, Czech Republic, 22-27 May, 2011

Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G., "A speaker recognition system based on sufficient-statistics-space channel-compensation and dot-scoring" VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.135-138, Vigo, Spain, 10-12 November, 2010

Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Diez, M., Bordel, G., "Overview of the Albayzin 2010 Language Recognition Evaluation: database design, evaluation plan and preliminary analysis of results" VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.309-316, Vigo, Spain, 10-12 November, 2010

Diez, M., Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "GTTS System for the Albayzin 2010 Speaker Diarization Evaluation" VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.397-400, Vigo, Spain, 10-12 November, 2010

Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Diez, M., Bordel, G., "GTTS Systems for the Albayzin 2010 Audio Segmentation Evaluation" VI Jornadas en Tecnologías del Habla and II Iberian SLTech Workshop; pp.419-420, Vigo, Spain, 10-12 November, 2010

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Using Cross-Decoder Co-Occurrences of Phone N-Grams in SVM-based Phonotactic Language Recognition" Interspeech 2010; Makuhari, Japan, 26-30 September, 2010

Varona, A., Rodriguez-Fuentes, L.J., Penagarikano, M., Nieto, S., Diez, M., Bordel, G., "Search and access to information contained in the speech of multimedia resources" XXV Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Valencia, Spain, 8-10 September, 2010

Varona, A., Penagarikano, M., Rodriguez-Fuentes, L.J., Diez, M., Bordel, G., "Verification of the four Spanish official languages on TV show recordings" XXV Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Valencia, Spain, 8-10 September, 2010

Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G., "University of the Basque Country System for NIST 2010 Speaker Recognition Evaluation" V Jornadas de Reconocimiento Biométrico de Personas; Huesca, Spain, 2-3 September, 2010

Penagarikano, M., Varona, A., Diez, M., Rodriguez-Fuentes, L.J., Bordel, G., "University of the Basque Country System for NIST 2010 Speaker Recognition Evaluation" 2010 NIST Speaker Recognition Evaluation (SRE) Workshop; Brno, Czech Republic, 24-25 June, 2010

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition" Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010;

Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A., "The Albayzin 2008 Language Recognition Evaluation" Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010

Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A., Diez, M., "KALAKA: A TV Broadcast Speech Database for the Evaluation of Language Recognition Systems" 7th International Conference on Language Resources and Evaluation; Valleta, Malta, 17-23 May, 2010

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Using Cross-decoder Phone Coocurrences in Phonotactic Language Recognition" 35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Dallas(Texas), USA, March, 2010

Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r9 < r8 < r7 < r6 < r5 | More topic actions
 
Grupo de Trabajo en Tecnologías Software
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback