Présentations orales

Sessions orales TALN 2015 – Mardi 23 juin

Conférence invitée

Roberto Navigli

9h00-10h00 | Amphithéâtre S3-057
Président de session : Marc Spaniol

Afficher le résumé
Résumé : Multilinguality is a key feature of today’s Web, and it is this feature that we leverage and exploit in our research work at the Sapienza University of Rome’s Linguistic Computing Laboratory, which I am going to overview and showcase in this talk.

I will start by presenting BabelNet 3.0, available at http://babelnet.org, a very large multilingual encyclopedic dictionary and semantic network, which covers 271 languages and provides both lexicographic and encyclopedic knowledge for all the open-class parts of speech, thanks to the seamless integration of WordNet, Wikipedia, Wiktionary, OmegaWiki, Wikidata and the Open Multilingual WordNet.

Next, I will present Babelfy, available at http://babelfy.org, a unified approach that leverages BabelNet to jointly perform word sense disambiguation and entity linking in arbitrary languages, with performance on both tasks on a par with, or surpassing, those of task-specific state-of-the-art supervised systems.

Finally I will describe the Wikipedia Bitaxonomy, available at http://wibitaxonomy.org, a new approach to the construction of a Wikipedia bitaxonomy, that is, the largest and most accurate currently available taxonomy of Wikipedia pages and taxonomy of categories, aligned to each other. I will also give an outline of future work on multilingual resources and processing, including state-of-the-art semantic similarity with sense embeddings.


Session Traduction

10h30 – 12h00 | Amphithéâtre S3-057
Président de session : David Langlois

Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole

Laurent Besacier, Benjamin Lecouteux et Luong Ngoc Quang

10h45-11h15 | Afficher le résumé
Résumé : Les mesures de confiance au niveau mot (Word Confidence Estimation – WCE) pour la traduction auto- matique (TA) ou pour la reconnaissance automatique de la parole (RAP) attribuent un score de confiance à chaque mot dans une hypothèse de transcription ou de traduction. Dans le passé, l’estimation de ces mesures a le plus souvent été traitée séparément dans des contextes RAP ou TA. Nous proposons ici une estimation conjointe de la confiance associée à un mot dans une hypothèse de traduction automatique de la parole (TAP). Cette estimation fait appel à des paramètres issus aussi bien des systèmes de transcription de la parole (RAP) que des systèmes de traduction automatique (TA). En plus de la construction de ces estimateurs de confiance robustes pour la TAP, nous utilisons les informations de confiance pour re-décoder nos graphes d’hypothèses de traduction. Les expérimentations réalisées montrent que l’utilisation de ces mesures de confiance au cours d’une seconde passe de décodage permettent d’obtenir une amélioration significative des performances de traduction (évaluées avec la métrique BLEU – gains de deux points par rapport à notre système de traduc- tion de parole de référence). Ces expériences sont faites pour une tâche de TAP (français-anglais) pour laquelle un corpus a été spécialement conçu (ce corpus, mis à la disposition de la communauté TALN, est aussi décrit en détail dans l’article).

Multi-alignement vs bi-alignement : à plusieurs, c’est mieux !

Olivier Kraif

11h15-11h45 | Afficher le résumé
Résumé : Dans cet article, nous proposons une méthode originale destinée à effectuer l’alignement d’un corpus multi-parallèle, i.e. comportant plus de deux langues, en prenant en compte toutes les langues simultanément (et non en composant une série de bi-alignements indépendants). Pour ce faire, nous nous appuyons sur les réseaux de correspondances lexicales constitués par les transfuges (chaînes identiques) et cognats (mots apparentés), et nous montrons comment divers tuilages des couples de langues permettent d’exploiter au mieux les ressemblances superficielles liées aux relations génétiques interlinguistiques. Nous évaluons notre méthode par rapport à une méthode de bi-alignement classique, et montrons en quoi le multi-alignement permet d’obtenir des résultats à la fois plus précis et plus robustes.

Apprentissage discriminant des modèles continus de traduction

Quoc-Khanh Do, Alexandre Allauzen et François Yvon

11h45-12h15 | Afficher le résumé
Résumé : Alors que les réseaux neuronaux occupent une place de plus en plus
Importante dans le traitement automatique des langues, les méthodes
d’apprentissage actuelles utilisent pour la plupart des critères qui
sont décorrélés de l’application. Cet article propose un nouveau
cadre d’apprentissage discriminant pour l’estimation des modèles
continus de traduction. Ce cadre s’appuie sur la définition d’un
critère d’optimisation permettant de prendre en compte d’une part la
métrique utilisée pour l’évaluation de la traduction et d’autre part
l’intégration de ces modèles au sein des systèmes de traduction
automatique. De plus cette méthode d’apprentissage est comparée aux
critères existants d’estimation que sont le maximum de vraisemblance
et l’estimation contrastive bruitée. Les expériences menées sur la
tâches de traduction des séminaires TED Talks de l’anglais vers le
français montrent la pertinence d’un cadre discriminant
d’apprentissage mais dont les performances sont liées au choix d’une
stratégie d’initialisation adéquate. Nous montrons qu’avec une
initialisation judicieuse des gains significatifs en terme de score
\bleu peuvent être obtenus.

Session Désambiguïsation

10h30 – 12h00 | Amphithéâtre S3-049
Présidente de session : Charlotte Lecluze

Désambiguïsation d’entités pour l’induction non supervisée de schémas événementiels

Kiem-Hieu Nguyen, Xavier Tannier, Olivier Ferret et Romaric Besançon

10h45-11h15 | Afficher le résumé
Résumé : Cet article présente un modèle génératif pour l’induction non supervisée d’événements. Les précédentes méthodes de la littérature utilisent uniquement les têtes des syntagmes pour représenter les entités. Pourtant, le groupe complet (par exemple, « un homme armé ») apporte une information plus discriminante (que « homme »). Notre modèle tient compte de cette information et la représente dans la distribution des schémas d’événements. Nous montrons que ces relations jouent un rôle important dans l’estimation des paramètres, et qu’elles conduisent à des distributions plus cohérentes et plus discriminantes. Les résultats expérimentaux sur le corpus de MUC-4 confirment ces progrès.

Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée

Mohammad Nasiruddin, Andon Tchechmedjiev, Hervé Blanchon et Didier Schwab

11h15-11h45 | Afficher le résumé
Résumé : Nous présentons une méthode pour créer rapidement un système de désambiguïsation lexicale (DL) pour une langue L peu dotée pourvu que l’on dispose d’un système de traduction automatique statistique (TAS) d’une langue riche en corpus annotés en sens (ici l’anglais) vers L. Il est, en effet, plus facile de disposer des ressources nécessaires à la création d’un système de TAS que des ressources dédiées nécessaires à la création d’un système de DL pour la langue L. Notre méthode consiste à traduire automatiquement un corpus annoté en sens vers la langue L, puis de créer le système de désambiguïsation pour L par des méthodes supervisées classiques. Nous montrons la faisabilité de la méthode et sa généricité en traduisant le \semcor, un corpus en anglais annoté grâce au \wordnet, de l’anglais vers le bangla et de l’anglais vers le français. Nous montrons la validité de l’approche en évaluant les résultats sur la tâche de désambiguïsation lexicale multilingue de Semeval 2013.

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques (Article RECITAL)

Mokhtar Boumedyen Billami

11h45-12h15 | Afficher le résumé
Résumé : La désambiguïsation lexicale permet d’améliorer de nombreuses applications en traitement automatique des langues (TAL) comme la recherche d’information, l’extraction d’information, la traduction automatique, ou la simplification lexicale de textes. Schématiquement, il s’agit de choisir quel est le sens le plus approprié pour chaque mot d’un texte. Une des approches classiques consiste à estimer la similarité sémantique qui existe entre les sens de deux mots puis de l’étendre à l’ensemble des mots du texte. La méthode la plus directe donne un score de similarité à toutes les paires de sens de mots puis choisit la chaîne de sens qui retourne le meilleur score (on imagine la complexité exponentielle liée à cette approche exhaustive). Dans cet article, nous proposons d’utiliser une méta-heuristique d’optimisation combinatoire qui consiste à choisir une fenêtre contenant les voisins les plus proches par sélection distributionnelle autour du mot à désambiguïser. Le test et l’évaluation de notre méthode portent sur un corpus écrit en langue française en se servant du réseau sémantique BabelNet. Le taux d’exactitude obtenu est de 78% sur l’ensemble des noms et des verbes choisis pour l’évaluation.

Session Syntaxe et paraphrase

13h30 – 15h30 | Amphithéâtre S3-057
Président de session : Jean-Yves Antoine

Grammaires phrastiques et discursives fondées sur TAG : une approche de D-STAG avec les ACG

Laurence Danlos, Aleksandre Maskharashvili et Sylvain Pogodalla

13h30-14h00 | Afficher le résumé
Résumé : Nous présentons une méthode pour articuler grammaire de phrase et grammaire de discours. Cette méthode permet à la fois l’intégration des deux grammaires sans recourir à une étape de traitement intermédiaire et de construire des structures discursives qui ne soient pas des arbres mais des graphes orientés acycliques (DAG). Notre analyse s’appuie sur une approche de l’analyse discursive utilisant les Grammaires d’Arbres Adjoint (TAG), Discourse Synchronous TAG (D-STAG). Nous utilisons pour ce faire un encodage des TAG dans les Grammaires Catégorielles Abstraites (ACG). Cela permet d’une part d’utiliser l’ordre supérieur pour l’interprétation sémantique afin de construire des structures qui soient des DAG et non des arbres, et d’autre part d’utiliser les propriétés de composition d’ACG afin d’articuler naturellement grammaire phrastique et grammaire discursive. Tous les exemples peuvent être exécutés avec le logiciel approprié.

Analyse syntaxique de l’ancien français : quelles propriétés de la langue influent le plus sur la qualité de l’apprentissage ?

Gaël Guibon, Isabelle Tellier, Sophie Prévost, Matthieu Constant et Kim Gerdes

14h00-14h30 | Afficher le résumé
Résumé : L’article présente des résultats d’expériences d’apprentissage automatique pour l’étiquetage morpho-syntaxique et l’analyse syntaxique en dépendance de l’ancien français. Le corpus arboré SRCMF sert de données de référence. La nature peu standardisée de la langue qui y est utilisée implique des données d’entraînement par nature hétérogènes et aussi quantitativement limitées. Nous explorons donc diverses stratégies, fondées sur différents critères (variabilité du lexique, forme Vers/Prose des textes, époque de rédaction), pour constiter des corpus d’entrainement menant aux meilleurs résultats possibles.

Noyaux de réécriture de phrases munis de types lexico-sémantiques

Martin Gleize et Brigitte Grau

14h30-15h00 | Afficher le résumé
Résumé : De nombreux problèmes en traitement automatique des langues requièrent de déterminer si deux phrases sont des réécritures l’une de l’autre. Une solution efficace consiste à apprendre les réécritures en se fondant sur des méthodes à noyau qui mesurent la similarité entre deux réécritures de paires de phrases. Toutefois, ces méthodes ne permettent généralement pas de prendre en compte des variations sémantiques entre mots, qui permettraient de capturer un plus grand nombre de règles de réécriture. Dans cet article, nous proposons la définition et l’implémentation d’une nouvelle classe de fonction noyau, fondée sur la réécriture de phrases enrichie par un typage pour combler ce manque. Nous l’évaluons sur deux tâches, la reconnaissance de paraphrases et d’implications textuelles.

Extraction automatique de paraphrases grand public pour les termes médicaux

Natalia Grabar et Thierry Hamon

15h00-15h30 | Afficher le résumé
Résumé : Nous sommes tous concernés par notre état de santé et restons sensibles aux informations de santé disponibles dans la société moderne à travers par exemple les résultats des recherches scientifiques, les médias sociaux de santé, les documents cliniques, les émissions de télé et de radio ou les nouvelles. Cependant, il est commun de rencontrer dans le domaine médical des termes très spécifiques (eg, blépharospasme, alexitymie, appendicectomie), qui restent difficiles à comprendre par les non spécialistes. Nous proposons une méthode automatique qui vise l’acquisition de paraphrases pour les termes médicaux, qui soient plus faciles à comprendre que les termes originaux. La méthode est basée sur l’analyse morphologique des termes, l’analyse syntaxique et la fouille de textes non spécialisés. L’analyse et l’évaluation des résultats indiquent que de telles paraphrases peuvent être trouvées dans les documents non spécialisés et présentent une compréhension plus facile. En fonction des paramètres de la méthode, la précision varie entre 86 et 55 %. Ce type de ressources est utile pour plusieurs applications de TAL (eg, recherche d’information grand public, lisibilité et simplification de textes, systèmes de question-réponses).

Session Extraction d’information

13h30 – 15h30 | Amphithéâtre S3-049
Président de session : Aurélien Bossard

Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first

Elena Knyazeva, Guillaume Wisniewski et François Yvon

13h30-14h00 | Afficher le résumé
Résumé : Structured learning techniques, aimed at modeling structured objects
such as labeled trees or strings, are computationally
expensive. Many attempts have been made to reduce their complexity,
either to speed up learning et inference, or to take richer
dependencies into account. These attempts typically rely on
approximate inference techniques and usually provide very little
theoretical guarantee regarding the optimality of the solutions they
find.

In this work we study a new formulation of structured learning where
inference is primarily viewed as an incremental process along which
a solution is progressively computed. This framework generalizes
several structured learning approaches. Building on the connections
between this framework and reinforcement learning, we propose a
theoretically sound method to learn to perform approximate
inference. Experiments on four sequence labeling tasks show that our
approach is very competitive when compared to several strong
baselines.Structured learning techniques, aimed at modeling structured objects
such as labeled trees or strings, are computationally
expensive. Many attempts have been made to reduce their complexity,
either to speed up learning and inference, or to take richer
dependencies into account. These attempts typically rely on
approximate inference techniques and usually provide very little
theoretical guarantee regarding the optimality of the solutions they
find.

Oublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas: une étude sur les contraintes de type dans les modèles CRF

Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski et François Yvon

14h00-14h30 | Afficher le résumé
Résumé : Quand on dispose de connaissances a priori sur les sorties possibles d’un problème d’étiquetage,il semble souhaitable d’inclure cette information lors de l’apprentissage pour simplifier la tâche de modélisation et accélérer les traitements. Pourtant, même lorsque ces contraintes sont correctes et utiles au décodage, leur utilisation lors de l’apprentissage peut dégrader sévèrement les performances. Dans cet article, nous étudions ce paradoxe et montrons que le manque de contraste induit par les connaissances entraîne une forme de sous-apprentissage qu’il est cependant possible de limiter.

Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF

Vincent Claveau et Ewa Kijak

14h30-15h00 | Afficher le résumé
Résumé : Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé. De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance à la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert.
Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des CRF, outil largement utilisé en TAL.
Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportion dans les jeux de données manipulés.
Le bien-fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données,
incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.

Identification de facteurs de risque pour des patients diabétiques à partir de comptes-rendus cliniques par des approches hybrides

Cyril Grouin, Véronique Moriceau, Sophie Rosset et Pierre Zweigenbaum

15h00-15h30 | Afficher le résumé
Résumé : Dans cet article, nous présentons les méthodes que nous avons développées pour analyser des comptes-rendus hospitaliers rédigés en anglais. L’objectif de cette étude consiste à identifier les facteurs de risque de décès pour des patients diabétiques et à positionner les événements médicaux décrits par rapport à la date de création de chaque document. Notre approche repose sur (i) HeidelTime pour identifier les expressions temporelles, (ii) des CRF complétés par des règles de post-traitement pour identifier les traitements, les maladies et facteurs de risque, et (iii) des règles pour positionner temporellement chaque événement médical. Sur un corpus de 514 documents, nous obtenons une F-mesure globale de 0,8451. Nous observons que l’identification des informations directement mentionnées dans les documents se révèle plus performante que l’inférence d’informations à partir de résultats de laboratoire.

Session Classification et Alignement

16h00 – 17h30 | Amphithéâtre S3-057
Président de session : Florian Boudin

Typologie des langues automatique à partir de treebanks

Philippe Blache, Grégroie de Montcheuil et Stéphane Rauzy

16h00-16h30 | Afficher le résumé
Résumé : La typologie des langues consiste à identifier certaines propriétés syntaxiques et de les comparer au travers de plusieurs langues. Nous proposons dans cet article d’extraire automatiquement ces propriétés à partir de treebanks et de les analyser en vue de dresser une typologie. Nous décrivons cette méthode ainsi que les outils développés pour la mettre en œuvre. Nous appliquons la méthode à l’analyse de 10 langues décrites dans le Universal Dependencies Treebank. Nous validons ces résultats en montrant comment une technique de classification permet, sur la base des informations extraites, de reconstituer des familles de langue.

Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales

Romain Brixtel, Charlotte Lecluze et Gaël Lejeune

16h30-17h00 | Afficher le résumé
Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.
Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.

Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire.

Hai Hieu Vu, Jeanne Villaneau, Farida Saïd et Pierre-François Marteau

17h00-17h30 | Afficher le résumé
Résumé : Ce papier présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes
qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.

Session Compréhension et paraphrase

16h00 – 17h30 | Amphithéâtre S3-049
Président de session : Olivier Ferret

Compréhension automatique de la parole sans données de référence

Emmanuel Ferreira, Bassam Jabaian et Fabrice Lefèvre

16h00-16h30 | Afficher le résumé
Résumé : La majorité des méthodes état de l’art en compréhension automatique de la parole ont en commun de devoir être apprises sur une grande quantité de données annotées. Cette dépendance aux données constitue un réel obstacle lors du développement d’un système pour une nouvelle tâche/langue. Aussi, dans cette étude, nous présentons une méthode visant à limiter ce besoin par un mécanisme d’apprentissage sans données de référence (zero-shot learning). Cette méthode combine une description ontologique minimale de la tâche visée avec l’utilisation d’un espace sémantique continu appris par des approches à base de réseaux de neurones à partir de données génériques non-annotées. Nous montrons que le modèle simple et peu coûteux obtenu peut atteindre dès le démarrage des performances comparables à celles des systèmes état de l’art reposant sur des règles expertes ou sur des approches probabilistes sur des tâches de compréhension de la parole de référence (tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous proposons ensuite une stratégie d’adaptation en ligne permettant d’améliorer encore les performances de notre approche à l’aide d’une supervision faible et ajustable de l’utilisateur.

fr2sql : Interrogation de bases de données en français (Article RECITAL)

Jérémy Ferrero

16h30-17h00 | Afficher le résumé
Résumé : Les bases de données sont de plus en plus courantes et prennent de plus en plus d’ampleur au sein des applications et sites Web actuels. Elles sont souvent amenées à être utilisées par des personnes n’ayant pas une grande compétence en la matière et ne connaissant pas rigoureusement leur structure. C’est pour cette raison que des traducteurs du langage naturel aux requêtes SQL sont développés. Malheureusement, la plupart de ces traducteurs se cantonnent à une seule base du fait de la spécificité de l’architecture de celle-ci. Dans cet article, nous proposons une méthode visant à pouvoir interroger n’importe quelle base de données à partir du français. Nous évaluons notre application sur deux tables à la structure différente et nous montrons également qu’elle supporte plus d’opérations que la plupart des autres traducteurs.

Analyse d’expressions temporelles dans les dossiers électroniques patients

Mike Donald Tapi Nzali, Aurélie Névéol et Xavier Tannier

17h00-17h30 | Afficher le résumé
Résumé : Les références à des phénomènes du monde réel et à leur caractérisation temporelle se retrouvent dans beaucoup de types de discours en langue naturelle. Ainsi, l’analyse temporelle apparaît comme un élément important en traitement automatique de la langue. Cet article présente une analyse de textes en domaine de spécialité du point de vue temporel. En s’appuyant sur un corpus de documents issus de plusieurs dossiers électroniques patient désidentifiés, nous décrivons la construction d’une ressource annotée en expressions temporelles selon la norme TimeML. Par suite, nous utilisons cette ressource pour évaluer plusieurs méthodes d’extraction automatique d’expressions temporelles adaptées au domaine médical. Notre meilleur système statistique offre une performance de 0,91 de F-mesure, surpassant pour l’identification le système état de l’art HeidelTime. La comparaison de notre corpus de travail avec le corpus journalistique FR-Timebank permet également de caractériser les différences d’utilisation des expressions temporelles dans deux domaines de spécialité.

Sessions orales TALN 2015 – Mercredi 24 juin

Session Opinions et sentiments

9h00 – 10h30 | Amphithéâtre S3-057
Président de session : Patrick Paroubek

Méthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique

Romaric Besançon

9h00-9h30 | Afficher le résumé
Résumé : La détection d’opinion ciblée a pour but d’attribuer une opinion à une caractéristique particulière d’un produit donné. La plupart des méthodes existantes envisagent pour cela une approche non supervisée. Or, les utilisateurs ont souvent une idée a priori des caractéristiques sur lesquelles ils veulent découvrir l’opinion des gens. Nous proposons dans cet article une méthode pour une extraction d’opinion ciblée, qui exploite cette information minimale sur les caractéristiques d’intérêt. Ce modèle s’appuie sur une segmentation automatique des textes, un enrichissement des données disponibles par similarité sémantique, et une annotation de l’opinion par classification supervisée. Nous montrons l’intérêt de l’approche sur un cas d’étude dans le domaine des jeux vidéos.

Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité

Mathieu Valette et Egle Eensoo

9h30-10h00 | Afficher le résumé
Résumé : Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs études en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces études se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.

Vers un modèle de détection des affects, appréciations et jugements dans le cadre d’interactions humain-agent (Article RECITAL)

Caroline Langlet

10h00-10h30 | Afficher le résumé
Résumé : Cet article aborde la question de la détection des expressions d’attitude — affect, d’appréciation et de jugement (Martin and White, 2005)– dans le contenu verbal de l’utilisateur au cours d’interactions en face-à-face avec un agent conversationnel animé. Il propose un positionnement en terme de modèles et de méthodes pour le développement d’un système de détection adapté aux buts communicationnels de l’agent et à une parole conversationnelle. Après une description du modèle théorique de référence choisi, l’article propose un modèle d’annotation des attitudes dédié l’exploration de ce phénomène dans un corpus d’interaction humain-agent. Il présente ensuite une première version de notre système. Cette première version se concentre sur la détection des expressions d’attitudes pouvant référer à ce qu’aime ou n’aime pas l’utilisateur. Le système est conçu selon une approche symbolique fondée sur un ensemble de règles sémantiques et de représentations logico-sémantiques des énoncés.

Session Sémantique

9h00 – 10h30 | Amphithéâtre S3-049
Présidente de session : Delphine Bernhard

Estimation de l’homogénéité sémantique pour les Questionnaires à Choix Multiples

Van-Minh Pho, Anne-Laure Ligozat et Brigitte Grau

9h00-9h30 | Afficher le résumé
Résumé : L’homogénéité sémantique stipule que des termes sont sémantiquement proches mais non similaires. Cette notion est au coeur de travaux relatifs à la génération automatique de questionnaires à choix multiples, et particulièrement à la sélection automatique de distracteurs. Dans cet article, nous présentons une méthode d’estimation de l’homogénéité sémantique dans un cadre de validation automatique de distracteurs. Cette méthode est fondée sur une combinaison de plusieurs critères de voisinage et de similarité sémantique entre termes, par apprentissage automatique. Nous montrerons que notre méthode permet d’obtenir une meilleure estimation de l’homogénéité sémantique que les méthodes proposées dans l’état de l’art.

Extraction automatique de relations sémantiques dans les définitions : approche hybride, construction d’un corpus de relations sémantiques pour le français

Emmanuel Cartier

9h30-10h00 | Afficher le résumé
Résumé : Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites.

Déclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels

Olivier Ferret

10h00-10h30 | Afficher le résumé
Résumé : La plupart des méthodes d’amélioration des thésaurus distributionnels se focalisent sur les moyens – représentations ou mesures de similarité – de mieux détecter la similarité sémantique entre les mots. Dans cet article, nous proposons un point de vue inverse : nous cherchons à détecter les voisins sémantiques associés à une entrée les moins susceptibles d’être liés sémantiquement à elle et nous utilisons cette information pour réordonner ces voisins. Pour détecter les faux voisins sémantiques d’une entrée, nous adoptons une approche s’inspirant de la désambiguïsation sémantique en construisant un classifieur permettant de différencier en contexte cette entrée des autres mots. Ce classifieur est ensuite appliqué à un échantillon des occurrences des voisins de l’entrée pour repérer ceux les plus éloignés de l’entrée. Nous évaluons cette méthode pour des thésaurus construits à partir de cooccurrents syntaxiques et nous montrons l’intérêt de la combiner avec les méthodes décrites dans (Ferret, 2013) selon une stratégie de type vote.

Session Plénière

14h00 – 15h30 | Amphithéâtre S3-057
Président de session : Pierre Zweigenbaum

Comparaison d’architectures neuronales pour l’analyse syntaxique en constituants

Maximin Coavoux et Benoît Crabbé

14h00-14h30 | Afficher le résumé
Résumé : L’article traite de l’analyse syntaxique lexicalisée pour les grammaires de constituants.
On se place dans le cadre de l’analyse par transitions.
Les modèles statistiques généralement utilisés pour cette tâche
s’appuient sur une représentation non structurée du lexique.
Les mots du vocabulaire sont représentés par des symboles discrets sans liens entre eux.
À la place, nous proposons d’utiliser des représentations denses
du type plongements (embeddings) qui permettent de modéliser
la similarité entre symboles, c’est-à-dire entre mots, entre parties du discours et entre catégories
syntagmatiques.
Nous proposons d’adapter le modèle statistique sous-jacent à ces nouvelles représentations.
L’article propose une étude de 3 architectures neuronales de complexité croissante
et montre que l’utilisation d’une couche cachée non-linéaire permet de tirer parti
des informations données par les plongements.L’article traite de l’analyse syntaxique lexicalisée pour les grammaires de constituants.

…des conférences enfin disons des causeries… Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux

Natalia Grabar et Iris Eshkol

14h30-15h00 | Afficher le résumé
Résumé : Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformulation paraphrastique et des spécificités de l’oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l’apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données d’autres points de vue.

Utiliser les interjections pour détecter les émotions

Amel Fraisse et Patrick Paroubek

15h00-15h30 | Afficher le résumé
Résumé : Bien que les interjections soient un phénomène linguistique connu, elles ont été peu étudiées et cela continue d’être le cas pour les travaux sur les microblogs. Des travaux en analyse de sentiments ont montré l’intérêt des émoticônes et récemment des mots-dièses, qui s’avèrent être très utiles pour la classification en polarité. Mais malgré leur statut grammatical et leur richesse sémantique, les interjections sont restées marginalisées par les systèmes d’analyse
de sentiments. Nous montrons dans cet article l’apport majeur des interjections pour la détection des émotions. Nous détaillons la production automatique, basée sur les interjections, d’un corpus étiqueté avec les émotions. Nous expliquons ensuite comment nous avons utilisé ce corpus pour en déduire, automatiquement, un lexique affectif pour le français. Ce lexique a été évalué sur une tâche de détection des émotions, qui a montré un gain en mesure F1 allant, selon les émotions,
de +0,04 à +0,21.

Sessions orales TALN 2015 – Jeudi 25 juin

Conférence invitée

Pourquoi construire des ressources terminologiques et pourquoi le faire différemment ?

Marie-Claude L’Homme

9h00-10h00 | Amphithéâtre S3-057
Président de session : Pierre Beust

Afficher le résumé
Résumé : Dans cette présentation, je défendrai l’idée selon laquelle des ressources terminologiques décrivant les propriétés lexico-sémantiques des termes constituent un complément nécessaire, voire indispensable, à d’autres types de ressources, À partir d’exemples anglais et français empruntés au domaine de l’environnement, je montrerai, d’une part, que les ressources lexicales générales (y compris celles qui ont une large couverture) n’offrent pas un portait complet du sens des termes ou de la structure lexicale observée du point de vue d’un domaine de spécialité. Je montrerai, d’autre part, que les ressources terminologiques (thésaurus, ontologies, banques de terminologie) souvent d’obédience conceptuelle, se concentrent sur le lien entre les termes et les connaissances dénotées par eux et s’attardent peu sur leur fonctionnement linguistique. Je présenterai un type de ressource décrivant les propriétés lexico-sémantiques des termes d’un domaine (structure actantielle, liens lexicaux, annotations contextuelles, etc.) et des éléments méthodologiques présidant à son élaboration.

Session Posters, Démonstrations

10h30 – 11h00 | Lancement de la session | Amphithéâtre S3-057


Session Posters, Démonstrations

13h30 – 14h00 | Lancement de la session | Amphithéâtre S3-057