r5 - 20 Oct 2009 - 16:45:35 - MikelPenagarikanoYou are here: TWiki >  Main Web  > IdazkariProject

IDAZKARI: Transcripción e Indexado Automático de Reuniones

  • Financiado por el Gobierno Vasco dentro de la convocatoria SAIOTEK 2006 con el código S-PE06UN48
  • Investigador principal: LuisJavierRodriguezFuentes
  • Período: enero de 2006 - diciembre de 2007 (prorrogado hasta junio de 2008)

Resumen

El proyecto tiene como objetivo principal desarrollar tecnologías que permitan abordar el tratamiento del habla espontánea (a veces colaborativa, pero en muchos otros casos conflictiva) que se produce de manera natural en reuniones entre personas, de manera que sea posible separar las distintas fuentes, eliminar aquellas que se consideren irrelevantes (como por ejemplo, ruidos) y transcribir y anotar las restantes. La aplicación piloto que se propone consiste en transcribir e indexar reuniones técnicas o administrativas (más o menos formales), tanto en euskera como en castellano, como las que tienen lugar en entornos de I+D+i como universidades y centros tecnológicos. De cada reunión, que estaría almacenada en formato multimedia (audio o video), se obtendría un fichero/índice XML sincronizado con la señal, que básicamente contendría la segmentación y transcripción completa de las intervenciones, con identificación de temas y de locutores. En la Figura 1 se muestra un posible escenario para esta aplicación.

Figura 1. Posible escenario para un sistema de transcripción e indexado automático de reuniones (la imagen corresponde al Meeting Recorder Project del ICSI de Berkeley)

Desde un punto de vista estratégico, el proyecto trata de intensificar la colaboración entre los miembros del equipo, procedentes de tres departamentos distintos de la UPV/EHU, con experiencia investigadora en las áreas de Reconocimiento Automático del Habla (RAH), Reconocimiento del Locutor (RL), Procesamiento del Lenguaje Natural (PLN) e Ingeniería del Software (IS), y que ya han colaborado previamente en un proyecto Saiotek correspondiente a la convocatoria 2005/2006, al que en adelante nos referiremos como Ehiztari. El proyecto que aquí se propone supone un nuevo reto que encaja con las tres áreas de conocimiento mencionadas y que, aunque guarda cierta similitud con Ehiztari, contiene un gran número de elementos que lo diferencian y le prestan un interés específico. Gracias a las experiencias complementarias de los distintos miembros del equipo, el proyecto puede abordar varias problemáticas distintas: la transcripción de habla espontánea, tanto en castellano como en euskera, la identificación y segmentación de locutores, la identificación y segmentación de temas, y la creación de una herramienta de transcripción/indexado y acceso a las reuniones.

Como se ha dicho, hay varios elementos que emparentan el proyecto propuesto con Ehiztari, en concreto: (1) el procesamiento de señales de voz en contenedores multimedia; (2) el uso de una infraestructura común de análisis de voz y transcripción automática del habla; y (3) la creación de ficheros/índice que aglutinan la información extraída de manera que es posible acceder de manera rápida a los contenidos originales, localizando, por ejemplo, las intervenciones de un locutor o la parte de la reunión dedicada a un tema concreto. Sin embargo, el equipo de investigadores considera que hay suficientes aspectos diferenciadores que justifican la solicitud de un proyecto específico. Entre ellos cabe destacar los siguientes: (1) el interés particular de la aplicación, como lo demuestran distintos proyectos actualmente en marcha a nivel europeo (AMI: http://www.amiproject.org/, M4: http://www.m4project.org/) y mundial (NIST Meeting Room Project: http://www.nist.gov/speech/test_beds/mr_proj/), interés tanto mayor en cuanto que no existen proyectos similares para el castellano y mucho menos para el euskera; (2) la posibilidad de controlar el entorno de adquisición; (3) la necesidad de obtener transcripciones completas; y (4) la necesidad de abordar estrategias específicas para reconocer el habla espontánea.

De hecho, el proyecto plantea cuestiones que hacen necesario estudiar y aplicar soluciones científico-técnicas específicas, como la definición de un entorno de adquisición adecuado (intrusivo/no intrusivo, número y tipo de micrófonos, condiciones de la sala, etc.); la separación de señales solapadas provenientes de distintas fuentes, cuya viabilidad dependerá en gran medida del entorno de adquisición; la segmentación de los turnos correspondientes a distintos locutores, y la identificación de éstos; la segmentación e identificación de temas de conversación; el modelado acústico, léxico y sintáctico de eventos específicos del habla espontánea, como pausas rellenas, palabras cortadas, reformulaciones, etc.; y, por último, la estimación de modelos de lenguaje robustos que permitan obtener transcripciones completas fiables de habla espontánea. Otras cuestiones que deberán abordarse son la identificación automática de la lengua (euskera/castellano) en la que se desarrolla cada reunión, y, por supuesto, la adquisición de un número significativo de reuniones en ambas lenguas, recursos que resultan imprescindibles para evaluar las tecnologías desarrolladas.

Publicaciones

Artículos publicados en revista o libro

Luis Javier Rodríguez, Mikel Peñagarikano, Germán Bordel.
"A Simple But Effective Approach to Speaker Tracking in Broadcast News".
Proceedings of the Third Iberian Conference on Pattern Recognition and Image Analysis, IbPRIA 2007, Part II, Girona, Spain, June 6-8, 2007.
Joan Martí, José Miguel Benedí, Ana Maria Mendonça and Joan Serrat (Editors), Lecture Notes in Computer Science, LNCS 4478, pages 48-55.
Springer 2007. ISBN 978-3-540-72848-1.

Nora Barroso, Aitzol Ezeiza, Nagore Gilisagasti, Karmele López de Ipiña, Alicia López, Jose Manuel López.
"First Approach in the Development of Resources for Information Retrieval in the Basque Context".
Proceedings of the 10th International Conference on Text, Speech and Dialogue, TSD 2007, Pilsen, Czech Republic, September 3-7, 2007.
Václav Matousek and Pavel Mautner (Editors), Lecture Notes in Computer Science, LNCS 4629, pp. 582-590.
Springer 2007. ISBN 978-3-540-74627-0.

Comunicaciones en Congresos internacionales

Maider Zamalloa, Germán Bordel, Luis Javier Rodríguez, Mikel Peñagarikano.
"Feature Selection Based on Genetic Algorithms for Speaker Recognition".
Proceedings of the IEEE Odyssey 2006: The Speaker and Language Recognition Workshop, pp. 1-8 (ISBN: 1-4244-0472-X).
San Juan (Puerto Rico). June 2006.

Maider Zamalloa, Germán Bordel, Luis Javier Rodríguez, Mikel Peñagarikano, Juan Pedro Uribe.
"Using Genetic Algorithms to Weight Acoustic Features for Speaker Recognition".
Proceedings of the 9th International Conference on Spoken Language Processing (ICSLP), INTERSPEECH 2006, pp. 909-912 (ISSN: 1990-9772 CDROM).
Pittsburgh, PA (USA), September 2006.

Mikel Peñagarikano, Germán Bordel, Luis Javier Rodríguez.
"Unified Training of WFSA through a Generic Interface".
Proceedings of the IEEE/ACL 2006 Workshop on Spoken Language Technology, pp. 122-125 (ISBN: 1-4244-0873-3).
Palm Beach (Aruba). December 2006.

Nora Barroso, Aitzol Ezeiza, Nagore Gilisagasti, Karmele López de Ipiña, Alicia López, Jose Manuel López.
"Development of Multimodal Resources for Multilingual Information Retrieval in Basque Context".
Proceedings of the 8th Annual Conference of the International Speech Communication Association, INTERSPEECH 2007, pp. 938-941 (ISSN: 1990-9772 CDROM).
Antwerp (Belgium). August 27-31, 2007.

Maider Zamalloa, Luis Javier Rodríguez, Mikel Peñagarikano, Germán Bordel, Juan Pedro Uribe.
"Improving robustness in open set speaker identification by shallow source modelling".
Proceedings of Odyssey 2008 - The Speaker and Language Recognition Workshop (ISBN: 978-0-620-40331-3 CDROM).
Stellenbosch (South Africa). January 21-25, 2008.

M. Zamalloa, L.J. Rodríguez-Fuentes, M. Peñagarikano, G. Bordel, J.P. Uribe.
"Comparing Genetic Algorithms to Principal Component Analysis and Linear Discriminant Análisis in Reducing Feature Dimensionality for Speaker Recognition".
Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2008), pp. 1153-1154 (ISBN: 978-1-60558-131-6).
Atlanta (USA). July 2008.

M. Zamalloa, L.J. Rodríguez-Fuentes, M. Peñagarikano, G. Bordel, J.P. Uribe.
"Increasing Robustness to Acoustically Uncovered Signals in Speaker Verification Through Shallow Source Modelling".
Proceedings of the 16th European Signal Processing Conference (EUSIPCO 2008).
Lausanne (Switzerland). August 25-29, 2008.

M. Zamalloa, L.J. Rodríguez-Fuentes, M. Peñagarikano, G. Bordel, J.P. Uribe.
"Feature Dimensionality Reduction Through Genetic Algorithms for Faster Speaker Recognition".
Proceedings of the 16th European Signal Processing Conference (EUSIPCO 2008).
Lausanne (Switzerland). August 25-29, 2008.

Comunicaciones en Congresos de ámbito nacional

Maider Zamalloa, Germán Bordel, Luis Javier Rodríguez, Mikel Peñagarikano, Juan Pedro Uribe.
"Selección y pesado de parámetros acústicos mediante algoritmos genéticos para el reconocimiento del locutor".
Actas de las IV Jornadas en Tecnología del Habla (4JTH), pp. 349-354. Zaragoza, noviembre de 2006.

Mikel Peñagarikano, Germán Bordel, Luis Javier Rodríguez, Maider Zamalloa.
"Diseño e implementación de una interfaz genérica para la estimación de autómatas de estados finitos ponderados".
Actas de las IV Jornadas en Tecnología del Habla (4JTH), pp. 373-377. Zaragoza, noviembre de 2006.

Ixabel Ariztimuño, Nora Barroso, Aitzol Ezeiza, Nagore Gilisagasti, Karmele López de Ipiña.
"First Experiments on Acoustic-Phonetic Decoding for Multilingual Speech Recognition in the Basque Context".
Actas de las I Jornadas de Inteligencia Computacional (JIC'07), pp. 363-372, Servicio de Publicaciones de la UPV/EHU (ISBN 978-84-9860-019-3).
San Sebastián, 24-25 de octubre de 2007.

-- LuisJavierRodriguezFuentes - 30 Jul 2008

Edit | Attach | Printable | Raw View | Backlinks: Web, All Webs | History: r5 < r4 < r3 < r2 < r1 | More topic actions
 
Grupo de Trabajo en Tecnologías Software
This site is powered by the TWiki collaboration platformCopyright © by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback