Articles Longs TALN

Articles Longs TALN

Mike Donald Tapi Nzali, Aurélie Névéol and Xavier Tannier. Analyse d’expressions temporelles dans les dossiers électroniques patients
Abstract: Les références à des phénomènes du monde réel et à leur caractérisation temporelle se retrouvent dans beaucoup de types de discours en langue naturelle. Ainsi, l’analyse temporelle apparaît comme un élément important en traitement automatique de la langue. Cet article présente une analyse de textes en domaine de spécialité du point de vue temporel. En s’appuyant sur un corpus de documents issus de plusieurs dossiers électroniques patient désidentifiés, nous décrivons la construction d’une ressource annotée en expressions temporelles selon la norme TimeML. Par suite, nous utilisons cette ressource pour évaluer plusieurs méthodes d’extraction automatique d’expressions temporelles adaptées au domaine médical. Notre meilleur système statistique offre une performance de 0,91 de F-mesure, surpassant pour l’identification le système état de l’art HeidelTime. La comparaison de notre corpus de travail avec le corpus journalistique FR-Timebank permet également de caractériser les différences d’utilisation des expressions temporelles dans deux domaines de spécialité.
Laurent Besacier, Benjamin Lecouteux and Luong Ngoc Quang. Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole
Abstract: Les mesures de confiance au niveau mot (Word Confidence Estimation – WCE) pour la traduction auto- matique (TA) ou pour la reconnaissance automatique de la parole (RAP) attribuent un score de confiance à chaque mot dans une hypothèse de transcription ou de traduction. Dans le passé, l’estimation de ces mesures a le plus souvent été traitée séparément dans des contextes RAP ou TA. Nous proposons ici une estimation conjointe de la confiance associée à un mot dans une hypothèse de traduction automatique de la parole (TAP). Cette estimation fait appel à des paramètres issus aussi bien des systèmes de transcription de la parole (RAP) que des systèmes de traduction automatique (TA). En plus de la construction de ces estimateurs de confiance robustes pour la TAP, nous utilisons les informations de confiance pour re-décoder nos graphes d’hypothèses de traduction. Les expérimentations réalisées montrent que l’utilisation de ces mesures de confiance au cours d’une seconde passe de décodage permettent d’obtenir une amélioration significative des performances de traduction (évaluées avec la métrique BLEU – gains de deux points par rapport à notre système de traduc- tion de parole de référence). Ces expériences sont faites pour une tâche de TAP (français-anglais) pour laquelle un corpus a été spécialement conçu (ce corpus, mis à la disposition de la communauté TALN, est aussi décrit en détail dans l’article).
Kiem-Hieu Nguyen, Xavier Tannier, Olivier Ferret and Romaric Besançon. Désambiguïsation d’entités pour l’induction non supervisée de schémas événementiels
Abstract: Cet article présente un modèle génératif pour l’induction non supervisée d’événements. Les précédentes méthodes de la littérature utilisent uniquement les têtes des syntagmes pour représenter les entités. Pourtant, le groupe complet (par exemple, « un homme armé ») apporte une information plus discriminante (que « homme »). Notre modèle tient compte de cette information et la représente dans la distribution des schémas d’événements. Nous montrons que ces relations jouent un rôle important dans l’estimation des paramètres, et qu’elles conduisent à des distributions plus cohérentes et plus discriminantes. Les résultats expérimentaux sur le corpus de MUC-4 confirment ces progrès.
Romaric Besançon. Méthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique
Abstract: La détection d’opinion ciblée a pour but d’attribuer une opinion à une caractéristique particulière d’un produit donné. La plupart des méthodes existantes envisagent pour cela une approche non supervisée. Or, les utilisateurs ont souvent une idée a priori des caractéristiques sur lesquelles ils veulent découvrir l’opinion des gens. Nous proposons dans cet article une méthode pour une extraction d’opinion ciblée, qui exploite cette information minimale sur les caractéristiques d’intérêt. Ce modèle s’appuie sur une segmentation automatique des textes, un enrichissement des données disponibles par similarité sémantique, et une annotation de l’opinion par classification supervisée. Nous montrons l’intérêt de l’approche sur un cas d’étude dans le domaine des jeux vidéos.
Romain Brixtel, Charlotte Lecluze and Gaël Lejeune. Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Abstract: Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue.

Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.
Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes.
A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée.
Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères.
Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales).
Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.
Olivier Kraif. Multi-alignement vs bi-alignement : à plusieurs, c’est mieux !
Abstract: Dans cet article, nous proposons une méthode originale destinée à effectuer l’alignement d’un corpus multi-parallèle, i.e. comportant plus de deux langues, en prenant en compte toutes les langues simultanément (et non en composant une série de bi-alignements indépendants). Pour ce faire, nous nous appuyons sur les réseaux de correspondances lexicales constitués par les transfuges (chaînes identiques) et cognats (mots apparentés), et nous montrons comment divers tuilages des couples de langues permettent d’exploiter au mieux les ressemblances superficielles liées aux relations génétiques interlinguistiques. Nous évaluons notre méthode par rapport à une méthode de bi-alignement classique, et montrons en quoi le multi-alignement permet d’obtenir des résultats à la fois plus précis et plus robustes.
Mohammad Nasiruddin, Andon Tchechmedjiev, Hervé Blanchon and Didier Schwab. Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée
Abstract: Nous présentons une méthode pour créer rapidement un système de désambiguïsation lexicale (DL) pour une langue L peu dotée pourvu que l’on dispose d’un système de traduction automatique statistique (TAS) d’une langue riche en corpus annotés en sens (ici l’anglais) vers L. Il est, en effet, plus facile de disposer des ressources nécessaires à la création d’un système de TAS que des ressources dédiées nécessaires à la création d’un système de DL pour la langue L. Notre méthode consiste à traduire automatiquement un corpus annoté en sens vers la langue L, puis de créer le système de désambiguïsation pour L par des méthodes supervisées classiques. Nous montrons la faisabilité de la méthode et sa généricité en traduisant le \semcor, un corpus en anglais annoté grâce au \wordnet, de l’anglais vers le bangla et de l’anglais vers le français. Nous montrons la validité de l’approche en évaluant les résultats sur la tâche de désambiguïsation lexicale multilingue de Semeval 2013.
Laurence Danlos, Aleksandre Maskharashvili and Sylvain Pogodalla. Grammaires phrastiques et discursives fondées sur TAG : une approche de D-STAG avec les ACG
Abstract: Nous présentons une méthode pour articuler grammaire de phrase et grammaire de discours. Cette méthode permet à la fois l’intégration des deux grammaires sans recourir à une étape de traitement intermédiaire et de construire des structures discursives qui ne soient pas des arbres mais des graphes orientés acycliques (DAG). Notre analyse s’appuie sur une approche de l’analyse discursive utilisant les Grammaires d’Arbres Adjoint (TAG), Discourse Synchronous TAG (D-STAG). Nous utilisons pour ce faire un encodage des TAG dans les Grammaires Catégorielles Abstraites (ACG). Cela permet d’une part d’utiliser l’ordre supérieur pour l’interprétation sémantique afin de construire des structures qui soient des DAG et non des arbres, et d’autre part d’utiliser les propriétés de composition d’ACG afin d’articuler naturellement grammaire phrastique et grammaire discursive. Tous les exemples peuvent être exécutés avec le logiciel approprié.
Van-Minh Pho, Anne-Laure Ligozat and Brigitte Grau. Estimation de l’homogénéité sémantique pour les Questionnaires à Choix Multiples
Abstract: L’homogénéité sémantique stipule que des termes sont sémantiquement proches mais non similaires. Cette notion est au coeur de travaux relatifs à la génération automatique de questionnaires à choix multiples, et particulièrement à la sélection automatique de distracteurs. Dans cet article, nous présentons une méthode d’estimation de l’homogénéité sémantique dans un cadre de validation automatique de distracteurs. Cette méthode est fondée sur une combinaison de plusieurs critères de voisinage et de similarité sémantique entre termes, par apprentissage automatique. Nous montrerons que notre méthode permet d’obtenir une meilleure estimation de l’homogénéité sémantique que les méthodes proposées dans l’état de l’art.
Amel Fraisse and Patrick Paroubek. Les interjections pour détecter les émotions
Abstract: Bien que les interjections soient un phénomène linguistique connu, elles ont été peu étudiées et cela continue d’être le cas pour les travaux sur les microblogs. Des travaux en analyse de sentiments ont montré l’intérêt des émoticônes et récemment des mots-dièses, qui s’avèrent être très utiles pour la classification en polarité. Mais malgré leur statut grammatical et leur richesse sémantique, les interjections sont restées marginalisées par les systèmes d’analyse de sentiments. Nous montrons dans cet article l’apport majeur de cet élément langagier pour la détection des émotions. Nous détaillons la production automatique, basée sur les interjections, d’un corpus étiqueté avec les émotions. Nous expliquons ensuite comment nous avons utilisé ce corpus pour en déduire, automatiquement, un lexique affectif pour le français. Ce lexique a été évalué sur une tâche de détection des émotions, qui a montré un gain en mesure F1 allant, selon les émotions, de +0,04 à +0,21.
Elena Knyazeva, Guillaume Wisniewski and François Yvon. Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first
Abstract: Structured learning techniques, aimed at modeling structured objects
such as labeled trees or strings, are computationally
expensive. Many attempts have been made to reduce their complexity,
either to speed up learning and inference, or to take richer
dependencies into account. These attempts typically rely on
approximate inference techniques and usually provide very little
theoretical guarantee regarding the optimality of the solutions they
find.

In this work we study a new formulation of structured learning where
inference is primarily viewed as an incremental process along which
a solution is progressively computed. This framework generalizes
several structured learning approaches. Building on the connections
between this framework and reinforcement learning, we propose a
theoretically sound method to learn to perform approximate
inference. Experiments on four sequence labeling tasks show that our
approach is very competitive when compared to several strong
baselines.

Maximin Coavoux and Benoît Crabbé. Comparaison d’architectures neuronales pour l’analyse syntaxique en constituants
Abstract: L’article traite de l’analyse syntaxique lexicalisée pour les grammaires de constituants.
On se place dans le cadre de l’analyse par transitions.
Les modèles statistiques généralement utilisés pour cette tâche
s’appuient sur une représentation non structurée du lexique.
Les mots du vocabulaire sont représentés par des symboles discrets sans liens entre eux.
À la place, nous proposons d’utiliser des représentations denses
du type plongements (embeddings) qui permettent de modéliser
la similarité entre symboles, c’est-à-dire entre mots, entre parties du discours et entre catégories
syntagmatiques.
Nous proposons d’adapter le modèle statistique sous-jacent à ces nouvelles représentations.
L’article propose une étude de 3 architectures neuronales de complexité croissante
et montre que l’utilisation d’une couche cachée non-linéaire permet de tirer parti
des informations données par les plongements.
Hai Hieu Vu, Jeanne Villaneau, Farida Saïd and Pierre-François Marteau. Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire.
Abstract: Ce papier présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes
qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.
Philippe Blache, Grégroie de Montcheuil and Stéphane Rauzy. Typologie des langues automatique à partir de treebanks
Abstract: La typologie des langues consiste à identifier certaines propriétés syntaxiques et de les comparer au travers de plusieurs langues. Nous proposons dans cet article d’extraire automatiquement ces propriétés à partir de treebanks et de les analyser en vue de dresser une typologie. Nous décrivons cette méthode ainsi que les outils développés pour la mettre en œuvre. Nous appliquons la méthode à l’analyse de 10 langues décrites dans le Universal Dependencies Treebank. Nous validons ces résultats en montrant comment une technique de classification permet, sur la base des informations extraites, de reconstituer des familles de langue.
Emmanuel Cartier. Extraction automatique de relations sémantiques dans les définitions : approche hybride, construction d’un corpus de relations sémantiques pour le français (SemDef)
Abstract: Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, prédications définitoires. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes distributionnelles, ainsi q’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats actuels : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites. Une analyse de la structuration sémantique qui découle de ces extractions est proposée.
Martin Gleize and Brigitte Grau. Noyaux de réécriture de phrases munis de types lexico-sémantiques
Abstract: De nombreux problèmes en traitement automatique des langues requièrent de déterminer si deux phrases sont des réécritures l’une de l’autre. Une solution efficace consiste à apprendre les réécritures en se fondant sur des méthodes à noyau qui mesurent la similarité entre deux réécritures de paires de phrases. Toutefois, ces méthodes ne permettent généralement pas de prendre en compte des variations sémantiques entre mots, qui permettraient de capturer un plus grand nombre de règles de réécriture. Dans cet article, nous proposons la définition et l’implémentation d’une nouvelle classe de fonction noyau, fondée sur la réécriture de phrases enrichie par un typage pour combler ce manque. Nous l’évaluons sur deux tâches, la reconnaissance de paraphrases et d’implications textuelles.
Olivier Ferret. Déclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels
Abstract: La plupart des méthodes d’amélioration des thésaurus distributionnels se focalisent sur la définition de meilleures mesures de similarité sémantique ou de procédures de repondération du contenu des contextes distributionnels associés aux mots. Dans cet article, nous proposons d’adopter un point de vue inverse~: nous cherchons à détecter les voisins sémantiques associés à une entrée les moins susceptibles d’être liés sémantiquement à elle et nous utilisons cette information pour réordonner ces voisins. Pour détecter les faux voisins sémantiques d’une entrée, nous adoptons une approche s’inspirant de la désambiguïsation sémantique en construisant un classifieur permettant de différencier en contexte cette entrée des autres mots. Ce classifieur est ensuite appliqué à un sous-ensemble représentatif des occurrences des voisins de l’entrée pour repérer ceux dont les contextes d’occurrence s’écartent trop de l’entrée. Nous évaluons plus particulièrement cette méthode pour des thésaurus construits à partir de cooccurrents syntaxiques et nous montrons l’intérêt de la combiner avec les méthodes décrites dans (Ferret, 2013) selon une stratégie de type vote.
Quoc-Khanh Do, Alexandre Allauzen and François Yvon. Apprentissage discriminant des modèles continus de traduction
Abstract: Alors que les réseaux neuronaux occupent une place de plus en plus
importante dans le traitement automatique des langues, les méthodes
d’apprentissage actuelles utilisent pour la plupart des critères qui
sont décorrélés de l’application. Cet article propose un nouveau
cadre d’apprentissage discriminant pour l’estimation des modèles
continus de traduction. Ce cadre s’appuie sur la définition d’un
critère d’optimisation permettant de prendre en compte d’une part la
métrique utilisée pour l’évaluation de la traduction et d’autre part
l’intégration de ces modèles au sein des systèmes de traduction
automatique. De plus cette méthode d’apprentissage est comparée aux
critères existants d’estimation que sont le maximum de vraisemblance
et l’estimation contrastive bruitée. Les expériences menées sur la
tâches de traduction des séminaires TED Talks de l’anglais vers le
français montrent la pertinence d’un cadre discriminant
d’apprentissage mais dont les performances sont liées au choix d’une
stratégie d’initialisation adéquate. Nous montrons qu’avec une
initialisation judicieuse des gains significatifs en terme de score
\bleu peuvent être obtenus.
Natalia Grabar and Iris Eshkol. …des conférences enfin disons des causeries… Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux
Abstract: Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformulation paraphrastique et des spécificités de l’oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l’apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données d’autres points de vue.
Natalia Grabar and Thierry Hamon. Extraction automatique de paraphrases grand public pour les termes médicaux
Abstract: Nous sommes tous concernés par notre état de santé et restons sensibles aux informations de santé disponibles dans la société moderne à travers par exemple les résultats des recherches scientifiques, les médias sociaux de santé, les documents cliniques, les émissions de télé et de radio ou les nouvelles. Cependant, il est commun de rencontrer dans le domaine médical des termes très spécifiques (eg, blépharospasme, alexitymie, appendicectomie), qui restent difficiles à comprendre par les non spécialistes. Nous proposons une méthode automatique qui vise l’acquisition de paraphrases pour les termes médicaux, qui soient plus faciles à comprendre que les termes originaux. La méthode est basée sur l’analyse morphologique des termes, l’analyse syntaxique et la fouille de textes non spécialisés. L’analyse et l’évaluation des résultats indiquent que de telles paraphrases peuvent être trouvées dans les documents non spécialisés et présentent une compréhension plus facile. En fonction des paramètres de la méthode, la précision varie entre 86 et 55 %. Ce type de ressources est utile pour plusieurs applications de TAL (eg, recherche d’information grand public, lisibilité et simplification de textes, systèmes de question-réponses).
Gaël Guibon, Isabelle Tellier, Sophie Prévost, Matthieu Constant and Kim Gerdes. Analyse syntaxique de l’ancien français : quelles propriétés de la langue influent le plus sur la qualité de l’apprentissage ?
Abstract: L’article présente des résultats d’expériences d’apprentissage automatique pour l’étiquetage morpho-syntaxique et l’analyse syntaxique en dépendance de l’ancien français. Le corpus arboré SRCMF sert de données de référence. La nature peu standardisée de la langue qui y est utilisée implique des données d’entraînement par nature hétérogènes et aussi quantitativement limitées. Nous explorons donc diverses stratégies, fondées sur différents critères (variabilité du lexique, forme Vers/Prose des textes, époque de rédaction), pour constiter des corpus d’entrainement menant aux meilleurs résultats possibles.
Mathieu Valette and Egle Eensoo. Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité
Abstract: Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs études en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces études se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.
Vincent Claveau and Ewa Kijak. Stratégies de sélection des exemples pour l’apprentissage actif avec des CRF
Abstract: Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé. De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance à la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert.
Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des CRF, outil largement utilisé en TAL. Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportion dans les jeux de données manipulés.Le bien-fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données, incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.
Cyril Grouin, Véronique Moriceau, Sophie Rosset and Pierre Zweigenbaum. Identification de facteurs de risque pour des patients diabétiques à partir de comptes-rendus cliniques par des approches hybrides
Abstract: Dans cet article, nous présentons les méthodes que nous avons développées pour analyser des comptes-rendus hospitaliers rédigés en anglais. L’objectif de cette étude consiste à identifier les facteurs de risque de décès pour des patients diabétiques et à positionner les événements médicaux décrits par rapport à la date de création de chaque document. Notre approche repose sur (i) HeidelTime pour identifier les expressions temporelles, (ii) des CRF complétés par des règles de post-traitement pour identifier les traitements, les maladies et facteurs de risque, et (iii) des règles pour positionner temporellement chaque événement médical. Sur un corpus de 514 documents, nous obtenons une F-mesure globale de 0,8451. Nous observons que l’identification des informations directement mentionnées dans les documents se révèle plus performante que l’inférence d’informations à partir de résultats de laboratoire.
Emmanuel Ferreira, Bassam Jabaian and Fabrice Lefèvre. Compréhension automatique de la parole sans données de référence
Abstract: La majorité des méthodes état de l’art en compréhension automatique de la parole ont en commun de devoir être apprises sur une grande quantité de données annotées. Cette dépendance aux données constitue un réel obstacle lors du développement d’un système pour une nouvelle tâche/langue. Aussi, dans cette étude, nous présentons une méthode visant à limiter ce besoin par un mécanisme d’apprentissage sans données de référence (zero-shot learning). Cette méthode combine une description ontologique minimale de la tâche visée avec l’utilisation d’un espace sémantique continu appris par des approches à base de réseaux de neurones à partir de données génériques non-annotées. Nous montrons que le modèle simple et peu coûteux obtenu peut atteindre dès le démarrage des performances comparables à celles des systèmes état de l’art reposant sur des règles expertes ou sur des approches probabilistes sur des tâches de compréhension de la parole de référence (tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous proposons ensuite une stratégie d’adaptation en ligne permettant d’améliorer encore les performances de notre approche à l’aide d’une supervision faible et ajustable de l’utilisateur.
Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski and François Yvon. Oublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas: une étude sur les contraintes de type dans les modèles CRF
Abstract: Lorsque l’on dispose de connaissances a priori sur les sorties possibles d’un problème d’étiquetage, il semble pertinent d’inclure cette information lors de l’apprentissage pour simplifier la tâche de modélisation et accélérer les traitements. Pourtant, même lorsque ces contraintes sont correctes, et bénéfiques au décodage, leur utilisation lors de l’apprentissage peut dégrader sévèrement les performances. Dans cet article, nous étudions ce paradoxe et montrons que le manque de contraste induit par les contraintes entraîne une forme de sous-apprentissage qu’il est cependant possible de limiter.