Sessions Démonstrations TALN 2015 – Jeudi 25 juin
Session 1
10h00 – 12h00 | Amphithéâtre S3-057 salle S3-162
MEDITE : logiciel d’alignement de textes pour l’étude de la génétique textuelle
Zied Sellami, Jean-Gabriel Ganascia et Mohamed Amine Boukhaled.
Afficher le résumé
Résumé : MEDITE est un logiciel d’alignement de textes permettant l’identification de transformations entre une version et une autre d’un même texte. Dans ce papier nous présentons les aspects théoriques et techniques de MEDITE.
Phœbus : un Logiciel d’Extraction de Réutilisations dans des Textes Littéraires
Mohamed Amine Boukhaled, Zied Sellami et Jean-Gabriel Ganascia.
Afficher le résumé
Résumé : Phœbus est un logiciel d’extraction de réutilisations dans des textes littéraires. Il a été développé comme un outil d’analyse littéraire assistée par ordinateur. Dans ce contexte, ce logiciel détecte automatiquement et explore des réseaux de réutilisation textuelle dans la littérature classique
YADTK : Une plateforme open-source à base de règles pour développer des systèmes de dialogue oral
Jérôme Lehuen et Carole Lailler.
Afficher le résumé
Résumé : YADTK est une plateforme de développement open-source pour construire et maintenir des systèmes de dialogue oral. En outre, elle permet de procéder à des tests unitaires, à des tests de non-régression, ainsi qu’à des analyses par lots d’énoncés. De part son caractère déclaratif et unifié, le modèle de représentation des connaissances permet un développement rapide (cycles de dev courts) et facilité (représentations sémantiques graphiques).
TermLis : un contexte d’information logique pour des ressources terminologiques.
Annie Foret.
Afficher le résumé
Résumé : Nous présentons TermLis un contexte d’information logique construit à partir de ressources terminologiques disponibles en xml (FranceTerme), pour une utilisation flexible avec un logiciel de contexte logique (CAMELIS). Une vue en contexte logique permet d’explorer des informations de manière flexible, sans rédaction de requête a priori, et d’obtenir aussi des indications sur la qualité des données. Un tel contexte peut être enrichi par d’autres informations (de natures diverses), mais aussi en le reliant à d’autres applications (par des actions associées selon des arguments fournis par le contexte). Nous montrons comment utiliser TermLis et nous illustrons, à travers cette réalisation concrète sur des données de FranceTerme, les avantages d’une telle approche pour des données terminologiques.
Etude de l’image de marque d’entités dans le cadre d’une plateforme de veille sur le Web social.
Leila Khouas, Caroline Brun, Anne Peradotto, Jean-Valère Cossu, Julien Boyadjian et Julien Velcin.
Afficher le résumé
Résumé : Le travail présenté ici concerne l’intégration à une plateforme de veille sur internet d’un ensemble d’outils permettant l’analyse des opinions émises par les internautes à propos d’une entité, ainsi que la manière dont elles évoluent dans le temps. Les entités considérées peuvent être des personnes, des entreprises, des marques, etc. Les outils implémentés sont le produit d’une collaboration impliquant plusieurs partenaires industriels et académiques dans le cadre du projet ANR ImagiWeb.
Building a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection
Ngoc Tan Le et Fatiha Sadat.
Afficher le résumé
Résumé : The creation of high-quality named entity annotated resources is time-consuming and an expensive process. Most of the gold standard corpora are available for English but not for less-resourced languages such as Vietnamese. In Asian languages, this task is remained problematic. This paper focuses on an automatic construction of named entity annotated corpora for Vietnamese-French, a less-resourced pair of languages. We incrementally apply different cross-projection methods using parallel corpora, such as perfect string matching and edit distance similarity. Evaluations on Vietnamese –French pair of languages show a good accuracy (F-score of 94.90%) when identifying named entities pairs and building a named entity annotated parallel corpus.
Session 2
13h30 – 15h30 | Amphithéâtre S3-057 et salle S3-162
Recherche de motifs de graphe en ligne
Bruno Guillaume.
Afficher le résumé
Résumé : Nous présentons un outil en ligne de recherche de graphes dans des corpus annotés en syntaxe.
Un patient virtuel dialogant
Leonardo Campillos, Dhouha Bouamor, Éric Bilinski, Anne-Laure Ligozat, Pierre Zweigenbaum and Sophie Rosset.
Afficher le résumé
Résumé : Le démonstrateur que nous décrivons ici est un prototype de système de dialogue dont l’objectif est de simuler un patient. Nous décrivons son fonctionnement général en insistant sur les aspects concernant la langue et surtout le rapport entre langue médicale de spécialité et langue générale.
Intégration du corpus des actes de TALN à la plateforme ScienQuest
Achille Falaise.
Afficher le résumé
Résumé : Cette démonstration présente l’intégration du corpus arboré des Actes de TALN à la plateforme ScienQuest. Cette plateforme fut initialement créée pour l’étude du corpus de textes scientifiques Scientext. Cette intégration tient compte des méta-données propres au corpus TALN, et a été effectuée en s’efforçant de rapprocher les jeux d’étiquettes de ces deux corpus, et en convertissant pour le corpus TALN les requêtes prédéfinies conçues pour le corpus Scientext, de manière à permettre d’effectuer facilement des recherches similaires sur les deux corpus.
Une aide à la communication par pictogrammes avec prédiction sémantique
Aurélie Merlo.
Afficher le résumé
Résumé : Cette démonstration présente une application mobile (pour tablette et smartphone) pour des personnes souffrant de troubles du langage et/ou de la parole permettant de générer des phrases à partir de la combinaison de pictogrammes puis de verbaliser le texte généré en Text-To-Speech (TTS). La principale critique adressée par les patients utilisant les solutions existantes est le temps de composition trop long d’une phrase. Cette limite ne permet pas ou très difficilement d’utiliser les solutions actuelles en condition dialogique. Pour pallier cela, nous avons développé un moteur de génération de texte avec prédiction sémantique ne proposant à l’utilisateur que les pictogrammes pertinents au regard de la saisie en cours (e.g. après le pictogramme [manger], l’application propose les pictogrammes [pomme] ou encore [viande] correspondant à des concepts comestibles). Nous avons ainsi multiplié de 5 à 10 la vitesse de composition d’une phrase par rapport aux solutions existantes.
Un système expert fondé sur une analyse sémantique pour l’identification de menaces d’ordre biologique
Cédric Lopez, , Aleksandra Ponomareva, Cécile Robin, André Bittar, Xabier Larrucea, Frédérique Segond et Marie-Hélène Metzger.
Afficher le résumé
Résumé : Le projet européen TIER (Integrated strategy for CBRN – Chemical, Biological, Radiological and Nuclear – Threat Identification and Emergency Response) vise à intégrer une stratégie complète et intégrée pour la réponse d’urgence dans un contexte de dangers biologiques, chimiques, radiologiques, nucléaires, ou liés aux explosifs, basée sur l’identification des menaces et d’évaluation des risques. Dans cet article, nous nous focalisons sur les risques biologiques. Nous présentons notre système expert fondé sur une analyse sémantique, permettant l’extraction de données structurées à partir de données non structurées dans le but de raisonner.
DisMo : Un annotateur multi-niveaux pour les corpus oraux
Giulia Barreca.
Afficher le résumé
Résumé : Dans cette démonstration, nous présentons l’annotateur multi-niveaux DisMo, un outil conçu pour faire face aux spécificités des corpus oraux. Il fournit une annotation morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection des phénomènes de disfluence et des marqueurs de discours.