r8 - 28 Apr 2010 - 15:02:10 - AmparoVaronaYou are here: TWiki >  Main Web  > SabuesoProject

SABUESO: Búsqueda y acceso a la información contenida en el habla de recursos multimedia

  • Financiado por el MICINN (TIN2009-07446)
  • Investigador principal Amparo Varona
  • Investigadores: Germán Bordel, Mikel Peñagarikano, Luis Javier Rodriguez, Amparo Varona, Maider Zamalloa
  • Período: 1/ene./2010 - 31/dic./2012

Resumen

El proyecto SABUESO tiene como objetivo hacer aportaciones científicas e introducir mejoras de tipo tecnológico en el sistema de indexado y búsqueda de contenidos multimedia desarrollado por el Grupo de Trabajo en Tecnologías Software (GTTS) de la UPV/EHU. Se dispone de una arquitectura sencilla y eficiente de recuperación de información sobre noticias de televisión (vídeo y audio monocanal) en la que es fácil sustituir/integrar nuevos módulos. El sistema se ha desarrollado para trabajar sobre audio en castellano, euskera e inglés. Lo que se busca, desde un punto de vista científico, es realizar aportaciones en cuestiones teóricas fundamentales que lleven a mejoras significativas en el rendimiento del sistema. La primera tarea consistirá en diseñar y desarrollar plataformas de evaluación objetivas y subjetivas. Se pretende dar un impulso muy significativo a las prestaciones del sistema sobre todo en el backend de indexado: mejorar los módulos de clasificación de voz/no-voz, identificación y verificación de la lengua y verificación del locutor, estudiar y desarrollar técnicas para incrementar la robustez del reconocedor frente a las condiciones ambientales y de canal y aprovechar la información proporcionada por las medidas de confianza en la recuperación de información. Desde un punto de vista tecnológico, se busca mejorar la estructura y la ergonomía de la interfaz de usuario y facilitar la migración a nuevas aplicaciones. En concreto se pretende desarrollar, a partir del anterior, un prototipo de recuperación de información sobre reuniones (audio multicanal, con micrófonos close-talk y far-field). Las tecnologías desarrolladas en este proyecto, especialmente las de identificación de locutor e identificación de la lengua, se presentarán en campañas de evaluación internacionales organizadas por el NIST. Los avances científicos y tecnológicos se mostrarán en un prototipo accesible a través de una interfaz web, prototipo que se irá actualizando a medida que se avance en el desarrollo del proyecto.

El sistema en funcionamiento

Probar el sistema

Publicaciones

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition" Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010;

Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A., "The Albayzin 2008 Language Recognition Evaluation" Odyssey 2010: The Speaker and Language Recognition Workshop; Brno, Czech Republic, 28 June - 1 July, 2010

Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Varona, A., Diez, M., "KALAKA: A TV Broadcast Speech Database for the Evaluation of Language Recognition Systems" 7th International Conference on Language Resources and Evaluation; Valleta, Malta, 17-23 May, 2010

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Using Cross-decoder Phone Coocurrences in Phonotactic Language Recognition" 35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Dallas(Texas), USA, March, 2010

View topic | Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r9 < r8 < r7 < r6 < r5 | More topic actions...
 
Grupo de Trabajo en Tecnologías Software
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback