r2 - 01 Jul 2011 - 11:39:54 - AmparoVaronaYou are here: TWiki >  Main Web  > GRUPOSProject

Subvención general a grupos de investigación UPV/EHU

  • Financiado por la UPV/EHU (GIU10/18)
  • Investigador principal Amparo Varona
  • Investigadores: Germán Bordel, Mireia Diez, Mikel Peñagarikano, Luis Javier Rodriguez, Amparo Varona
  • Período: 1/dic./2010 - 30/nov./2013

Resumen

Desde el año 2005 GTTS ha desarrollado una plataforma de aplicación real: Hearch. Se trata de un sistema de indexado y búsqueda en repositorios multimedia, es decir, un buscador de aspecto convencional (como Google, Bing, etc) pero con la capacidad de obtener como resultado segmentos de vídeo gracias a la transcripción automática de sus contenidos de voz. El sistema consta de un back-end que capta, procesa e indexa los recursos, y de un front-end que, mediante una interfaz web, permite realizar búsquedas, configurar los distintos módulos y monitorizar el funcionamiento. Actualmente puede verse funcionando una primera versión frente a repositorios de noticias en castellano y euskera (http://gtts.ehu.es/Hearch/), aunque está también preparado para tratar con recursos en inglés.

Desde un punto de vista científico, se busca realizar aportaciones en cuestiones teóricas fundamentales que lleven a mejoras significativas en el rendimiento del sistema. Se prestará una atención especial a la mejora del backend de indexado: módulos de clasificación de voz/no-voz, verificación/identificación de la lengua y del locutor, el reconocedor automático del habla con transcripciones enriquecidas, etc.

Desde un punto de vista tecnológico, se busca mejorar la estructura y la ergonomía de la interfaz de usuario y facilitar la migración a nuevas aplicaciones. En esta línea, y en colaboración con los Servicios Informáticos del Parlamento Vasco, GTTS pretende desarrollar una nueva aplicación con el doble interés de ser un producto final y un sistema de contraste para la investigación. Se trata de hacer búsquedas por contenido o locutor en los videos (bilingües) de las sesiones parlamentarias.

Publicaciones

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Improved Modeling of Cross-Decoder Phone Co-occurrences in SVM-based Phonotactic Language Recognition" IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING; in print, 2011

Varona, A., Nieto, S., Rodriguez-Fuentes, L.J., Penagarikano, M., Bordel, G., Diez, M., "A Spoken Document Retrieval System for TV Broadcast News in Spanish and Basque" XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011

Rodriguez-Fuentes, L.J., Varona, A., Penagarikano, M., Diez, M., Bordel, G., "Spoken language recognition in conversational telephone speech and TV broadcast news (GLOSA)" XXVI Congreso de la Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN); Huelva, Spain, 5-7 September, 2011

Rodriguez-Fuentes, L.J., Penagarikano, M., Varona, A., Díez, M., Bordel, G., "The Albayzin 2010 Language Recognition Evaluation" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Bordel, G., Nieto, Silvia, Penagarikano, M., Rodriguez-Fuentes, L.J., Varona, A., "Automatic Subtitling of the Basque Parliament Plenary Sessions Videos" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Varona, A., Penagarikano, M., Rodriguez-Fuentes, L.J., Bordel, G., "On the Use of Lattices of Time-Synchronous Cross-Decoder Phone Co-occurrences in a SVM-Phonotactic Language Recognition System" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "Dimensionality Reduction for Using High-Order n-grams in SVM-Based Phonotactic Language Recognition" Interspeech 2011; Florence, Italy, 28-31 August, 2011

Diez, M., Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "On the use of Dot Scoring for Speaker Diarization" Iberian Conference on Pattern Recognition and Image Analysis (IbPRIA? 2011); Las Palmas de Gran Canaria. Spain., 8-10 June, 2011

Penagarikano, M., Varona, A., Rodriguez-Fuentes, L.J., Bordel, G., "A Dynamic Approach to the Selection of High Order N-GRAMS in Phonotactic Language Recognition" 35th International Conference on Acoustics, Speech, and Signal Processing (ICASSP); Prague, Czech Republic, 22-27 May, 2011

View topic | Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r3 < r2 < r1 | More topic actions...
 
Grupo de Trabajo en Tecnologías Software
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback