Sessions Posters TALN 2015 – Jeudi 25 juin
Session 1
10h00 – 12h00 | Amphithéâtre S3-057 et 1er étage
Posters TALN
A Simple Discriminative Training Method for Machine Translation with Large-Scale Features
Tian Xia, Shaodan Zhai, Zhongliang Li et Shaojun Wang.
Afficher le résumé
Résumé : Margin infused relaxed algorithms (MIRAs) dominate model tuning in statistical machine translation in the case of large scale features, but also they are famous for the complexity in implementation. We introduce a new method, which regards an N-best list as a permutation and minimizes the Plackett-Luce loss of ground-truth permutations. Experiments with large-scale features demonstrate that, the new method is more robust than MERT ; though it is only matchable with MIRAs, it has a comparatively advantage, easier to implement.
Natural Language Reasoning using Coq: Interaction and Automation
Stergios Chatzikyriakidis.
Afficher le résumé
Résumé : In this paper, we present the use of proof-assistant technology in order to deal with Natural Language Inference. We first propose the use of modern type theories as the language in which we translate natural language semantics to. Then, we implement these semantics in the proof-assistant Coq in order to reason about them. In particular we evaluate against a subset of the FraCas test suite and show a 95.2\% accuracy and also precision levels that outperform existing approaches at least for the comparable parts. We then discuss the issue of automation, showing that Coq’s tactical language allows one to build tactics that can fully automate proofs, at least for the cases we have looked at.
Vous aimez ?…ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade, Nathalie Le Brun et Alain Joubert.
Afficher le résumé
Résumé : En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.
Étude des verbes introducteurs de noms de médicaments dans les forums de santé
François Morlane-Hondère, Cyril Grouin et Pierre Zweigenbaum.
Afficher le résumé
Résumé : Dans cet article, nous combinons annotations manuelle et automatique pour identifier les verbes utilisés pour introduire un médicament dans les messages sur les forums de santé. Cette information est notamment utile pour identifier la relation entre un médicament et un effet secondaire. La mention d’un médicament dans un message ne garantit pas que l’utilisateur a pris ce traitement mais qu’il effectue un retour. Nous montrons ensuite que ces verbes peuvent servir pour extraire automatiquement des variantes de noms de médicaments. Nous estimons que l’analyse de ces variantes pourrait permettre de modéliser les erreurs faites par les usagers des forums lorsqu’ils écrivent les noms de médicaments, et améliorer en conséquence les systèmes de recherche d’information.
Initialisation de Réseaux de Neurones à l’aide d’un Espace Thématique
Mohamed Morchid, Richard Dufour et Georges Linarès.
Afficher le résumé
Résumé : Ce papier présente une méthode de traitement de documents parlés intégrant une représentation fondée sur un espace thématique dans un réseau de neurones artificiels (ANN) employé comme classifieur de document. La méthode proposée consiste à configurer la topologie d’un ANN ainsi que d’initialiser les connexions de celui-ci à l’aide des espaces thématiques appris précédemment. Il est attendu que l’initialisation fondée sur les probabilités thématiques permette d’optimiser le processus d’optimisation des poids du réseau ainsi qu’à accélérer la phase d’apprentissage tout en amélioration la précision de la classification d’un document de test.
Cette méthode est évaluée lors d’une tâche de catégorisation de dialogues parlés entre des utilisateurs et des agents du service d’appels de la Régie Autonome Des Transports Parisiens (RATP). Les résultats montrent l’intérêt de la méthode proposée d’initialisation d’un réseau, avec un gain observé de plus de 4 points en termes de bonne classification comparativement à l’initialisation aléatoire. De plus, les expérimentations soulignent que les performances sont faiblement dépendantes de la topologie du ANN lorsque les poids de la couche cachée sont initialisés au moyen des espaces de thèmes issus d’une allocation latente de Dirichlet ou latent Dirichlet Allocation (LDA) en comparaison à une initialisation empirique.
FDTB1: Repérage des connecteurs de discours en corpus
Jacques Steinlin, Margot Colinet et Laurence Danlos.
Afficher le résumé
Résumé : Cet article présente le repérage des connecteurs de discours dans le corpus FTB (French Treebank) déjà annoté pour la morpho-syntaxe. C’est la première étape de l’annotation discursive complète de ce corpus. Il s’agit de projeter sur le corpus les éléments répertoriés dans LexConn, lexique des connecteurs du français, et de filtrer les occurrences de ces éléments qui n’ont pas un emploi discursif mais par exemple un emploi d’adverbe de manière ou de préposition introduisant un complément sous-catégorisé. Plus de 10 000 connecteurs ont ainsi été repérés.
ROBO : Une mesure d’édition pour la comparaison de phrases – Application au résumé automatique
Aurélien Bossard et Christophe Rodrigues.
Afficher le résumé
Résumé : Dans cet article, nous proposons une mesure de distance entre phrases fondée sur la distance de Levenshtein doublement pondérée par la fréquence des mots et par le type d’opération réalisée. Nous l’évaluons au sein d’un système de résumé automatique dont la méthode de calcul est volontairement limitée à une approche fondée sur la similarité entre phrases. Nous sommes donc ainsi en mesure d’évaluer indirectement la performance de cette nouvelle mesure de distance.
Classification d’entités nommées de type « film »
Olivier Collin et Aleksandra Guerraz.
Afficher le résumé
Résumé : Dans cet article, nous nous intéressons à la classification contextuelle d’entités nommées de type « film ». Notre travail s’inscrit dans un cadre applicatif dont le but est de repérer, dans un texte, un titre de film contenu dans un catalogue (par exemple catalogue de films disponibles en VoD). Pour ce faire, nous combinons deux approches : nous partons d’un système à base de règles, qui présente une bonne précision, que nous couplons avec un modèle de langage permettant d’augmenter le rappel. La génération peu coûteuse de données d’apprentissage pour le modèle de langage à partir de Wikipedia est au coeur de ce travail. Nous montrons, à travers l’évaluation de notre système, la difficulté de classification des entités nommées de type « film » ainsi que la complémentarité des approches que nous utilisons pour
cette tâche.
A critical survey on measuring success in rank-based keyword assignment to documents
Natalie Schluter.
Afficher le résumé
Résumé : Evaluation approaches for unsupervised rank-based keyword assignment are nearly as numerous as are the existing systems. The prolific production of each newly used metric (or metric twist) seems to stem from general dissatisfaction with the previous one and the source of that dissatisfaction has not previously been discussed in the literature. The difficulty may stem from a poor specification of the keyword assignment task in view of the rank-based approach. With a more complete specification of this task, we aim to show why the previous evaluation metrics fail to satisfy researchers’ goals to distinguish and detect good rank-based keyword assignment systems. We put forward a characterisation of an ideal evaluation metric, and discuss the consistency of the evaluation metrics with this ideal, finding that the average standard normalised cumulative gain metric is most consistent with this ideal.
Effects of Graph Generation for Unsupervised Non-Contextual Single Document Keyword Extraction
Natalie Schluter.
Afficher le résumé
Résumé : This paper presents an exhaustive study on the generation of graph input to unsupervised graph-based non-contextual single document keyword extraction systems. A concrete hypothesis on concept coordination for documents that are scientific articles is put forward, consistent with two separate graph models: one which is based on word adjacency in the linear text|an approach forming the foundation of all previous graph-based keyword extraction methods, and a novel one that is based on word adjacency modulo their modifiers. In doing so, we achieve a best reported NDCG score to date of 0.431 for any system on the same data. In terms of a best parameter f-score, we achieve the highest reported to date (0.714) at a reasonable ranked list cut-off of $n=6$, which is also the best reported f-score for any keyword extraction or generation system in the literature on the same data. The best-parameter f-score corresponds to a reduction in error of 12.6\% conservatively.
Adaptation par enrichissement terminologique en traduction automatique statistique fondée sur la génération et le filtrage de bi-segments virtuels
Christophe Servan et Marc Dymetman.
Afficher le résumé
Résumé : Nous proposons des travaux préliminaires sur une approche permettant d’ajouter des termes bilingues à un système de Traduction Automatique Statistique (TAS) à base de segments. Ces termes sont, non seulement, inclus individuellement, mais aussi avec des contextes induits autour de ces mots. Tout d’abord nous générons ces contextes en généralisant des motifs (ou patrons) observés pour des mots de même nature syntaxique dans un corpus bilingue.
Enfin, nous filtrons les contextes qui n’atteignent pas un certain seuil de confiance, à l’aide d’une méthode de sélection de bi-segments inspirée d’une approche de sélection de données, précédemment appliquée à des textes bilingues alignés.
Une mesure d’intérêt à base de surreprésentation pour l’extraction des motifs syntaxiques stylistiques
Mohamed Amine Boukhaled, Francesca Frontini et Jean-Gabriel Ganascia.
Afficher le résumé
Résumé : Dans cette contribution, nous présentons une étude sur la stylistique computationnelle des textes de la littérature classiques française fondée sur une approche conduite par données, où la découverte des motifs linguistiques intéressants se fait sans aucune connaissance préalable. Nous proposons une mesure objective capable de capturer et d’extraire des motifs syntaxiques stylistiques significatifs à partir d’un œuvre d’un auteur donné. Notre hypothèse de travail est fondée sur le fait que les motifs syntaxiques les plus pertinents devraient refléter de manière significative le choix stylistique de l’auteur, et donc ils doivent présenter une sorte de comportement de surreprésentation contrôlé par les objectifs de l’auteur. Les résultats analysés montrent l’efficacité dans l’extraction de motifs syntaxiques intéressants dans le texte littéraire français classique, et semblent particulièrement prometteurs pour les analyses de ce type particulier de texte.
Une approche évolutionnaire pour le résumé automatique
Aurélien Bossard et Christophe Rodrigues.
Afficher le résumé
Résumé : Dans cet article, nous proposons une méthode de résumé automatique fondés sur l’utilisation d’un algorithme génétique pour parcourir l’espace des résumés candidats couplé à un calcul de divergence de probabilités de n-grammes entre résumés candidats et documents source. Cette méthode permet de considérer un résumé non plus comme une accumulation de phrases indépendantes les unes des autres, mais comme un texte vu dans sa globalité. Nous la comparons à une des meilleures méthodes existantes fondée sur la programmation linéaire en nombre entier, et montrons son efficacité sur le corpus TAC 2009.
Identification des unités de mesure dans les textes scientifiques
Soumia Lilia Berrahou, Patrice Buche, Juliette Dibie-Barthélemy et Mathieu Roche.
Afficher le résumé
Résumé : Le travail présenté dans cet article se situe dans le cadre de l’identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d’unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l’apprentissage supervisé. Cette méthode permet de réduire sensiblement l’espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l’espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l’espace de recherche réduit aux variants d’unités, utilise une nouvelle mesure de similarité permettant d’identifier automatiquement les variants découverts par rapport à un terme d’unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
Gaël Lejeune, Romain Brixtel et Charlotte Lecluze.
Afficher le résumé
Résumé : Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement.
Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
CANÉPHORE : un corpus français pour la fouille d’opinion ciblée
Joseph Lark, Emmanuel Morin et Sebastian Peña Saldarriaga.
Afficher le résumé
Résumé : La fouille d’opinion ciblée (aspect-based sentiment analysis) connaît ces dernières années un intérêt particulier, visible dans les sujets des récentes campagnes d’évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l’évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. L’annotation fournie permet l’évaluation de systèmes de fouille d’opinion à plusieurs niveaux de granularité. Nous accompagnons ce corpus de résultats de référence pour l’extraction de marqueurs d’opinion non supervisée. Dans un deuxième temps nous présentons une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.
Extraction des Contextes Riches en Connaissances en corpus spécialisés
Firas Hmida, Emmanuel Morin et Béatrice Daille.
Afficher le résumé
Résumé : Les banques terminologiques et les dictionnaires sont des ressources précieuses qui facilitent l’accès aux connaissances des domaines spécialisés. Ces ressources sont souvent assez pauvres et ne proposent pas toujours pour un terme à illustrer des exemples permettant d’appréhender le sens et l’usage de ce terme. Dans ce contexte, nous proposons de mettre en \oe uvre la notion de Contextes Riches en Connaissance pour extraire directement de corpus spécialisés des exemples de contextes illustrant son usage. Nous définissons un cadre unifié pour exploiter tout à la fois des patrons de connaissances et des collocations avec une qualité acceptable pour une révision humaine.
Traitement automatique des formes métriques des textes versifiés
Eliane Delente et Richard Renault.
Afficher le résumé
Résumé : L’objectif de cet article est de présenter tout d’abord dans ses grandes lignes le projet qui a pour objet le traitement automatique des formes métriques de la poésie et du théâtre français du début du XVIIe au début du XXe siècle. Nous présenterons ensuite un programme de calcul automatique des mètres appliqué à notre corpus dans le cadre d’une approche déterministe en nous appuyant sur la méthode métricométrique de B. de Cornulier. Enfin, nous présenterons la procédure d’appariement des rimes et de détermination des schémas de strophes dans les suites périodiques et les formes fixes.
Apprentissage automatique d’un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC
Adèle Désoyer, Frédéric Landragin et Isabelle Tellier.
Afficher le résumé
Résumé : Cet article présente CROC (Coreference Resolution for Oral Corpus), le premier système de résolution des coréférences en français reposant sur des techniques d’apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l’état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l’apprentissage, et nous présentons un ensemble d’expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l’état de l’art des systèmes conçus pour l’écrit. Nous concluons alors en donnant des perspectives sur la réalisation d’un système end-to-end valable à la fois pour l’oral transcrit et l’écrit.
Vers un diagnostic d’ambiguïté des termes candidats d’un texte
Gaël Lejeune et Béatrice Daille.
Afficher le résumé
Résumé : Les recherches autour de la désambiguïsation sémantique traitent de la question du sens à accorder à différentes occurrences d’un mot ou plus largement d’une unité lexicale. Dans cet article, nous nous intéressons à l’ambiguïté d’un terme en domaine de spécialité. Nous posons les premiers jalons de nos recherches sur une question connexe que nous nommons le diagnostic d’ambiguïté. Cette tâche consiste à décider si une occurrence d’un terme est ou n’est pas ambiguë. Nous mettons en œuvre une approche d’apprentissage supervisée qui exploite un corpus d’articles de sciences humaines rédigés en français dans lequel les termes ambigus ont été détectés par des experts. Le diagostic s’appuie sur deux types de traits : syntaxiques et positionnels. Nous montrons l’intérêt de la structuration du texte pour établir le diagnostic d’ambiguïté.
Augmentation d’index par propagation sur un réseau lexical – Application aux comptes rendus de radiologie
Mathieu Lafourcade et Lionel Ramadier.
Afficher le résumé
Résumé : Les données médicales étant de plus en plus informatisées, le traitement sémantiquement efficace des rapports médicaux est devenu une nécessité. La recherche d’images radiologiques peut être grandement facilitée grâce à l’indexation textuelle des comptes rendus associés. Nous présentons un algorithme d’augmentation d’index de comptes rendus fondé sur la propagation d’activation sur un réseau lexico-sémantique généraliste.
Détection automatique de l’ironie dans les tweets en français
Jihen Karoui, Farah Benamara Zitoune, Véronique Moriceau, Nathalie Aussenac-Gilles et Lamia Hadrich Belguith.
Afficher le résumé
Résumé : Cet article présente une méthode par apprentissage supervisé pour la détection de l’ironie dans les tweets en français. Un classifieur binaire utilise des traits de l’état de l’art dont les performances sont reconnues, ainsi que de nouveaux traits issus de notre étude de corpus. En particulier, nous nous sommes intéressés à la négation et aux oppositions de polarité explicites/implicites. Les résultats obtenus sont encourageants.
Création d’un nouveau treebank à partir de quatrièmes de couverture
Philippe Blache, Grégoire Moncheuil, Stéphane Rauzy et Marie-Laure Guénot.
Afficher le résumé
Résumé : Nous présentons ici 4-couv, un nouveau corpus arboré d’environ 3500 phrases, constitué d’un ensemble de quatrièmes de couverture, étiqueté et analysé automatiquement puis corrigé et validé à la main. Il répond à des besoins spécifiques pour des projets de linguistique expérimentale, et vise à rester compatible avec les autres treebanks existants pour le français. Nous présentons ici le corpus lui-même ainsi que les outils utilisés pour les différentes étapes de son élaboration : choix des textes, étiquetage, parsing, correction manuelle.
Posters RECITAL
Résumé Automatique Multi-Document Dynamique : État de l’art
Maâli Mnasri.
Afficher le résumé
Résumé : Les travaux menés dans le cadre du résumé automatique de texte ont montré des résultats à la fois très encourageants mais qui sont toujours à améliorer. La problématique du résumé automatique ne cesse d’évoluer avec les nouveaux champs d’application qui s’imposent, ce qui augmente les contraintes liées à cette tâche. Nous nous intéressons au résumé extractif multi-document dynamique. Pour cela, nous examinons les différentes approches existantes en
mettant l’accent sur les travaux les plus récents. Nous montrons ensuite que la performance des systèmes de résumé multi-document et dynamique est encore modeste. Trois contraintes supplémentaires sont ajoutées : la redondance inter-document, la redondance à travers le temps et la grande taille des données à traiter. Nous essayons de déceler les insuffisances des systèmes existants afin de bien définir notre problématique et guider ainsi nos prochains travaux.
Alignement multimodal de ressources éducatives et scientifiques
Hugo Mougard.
Afficher le résumé
Résumé : Cet article présente certaines questions de recherche liées au projet (anonymisé). L’ambition de ce projet est de valoriser les ressources éducatives et académiques en exploitant au mieux les différents médias disponibles (vidéos de cours ou de présentations d’articles, manuels éducatifs, articles scientifiques, présentations, etc). Dans un premier temps, nous décrirons le problème d’utilisation jointe de ressources multimédias éducatives ou scientifiques pour ensuite introduire l’état de l’art dans les domaines concernés. Cela nous permettra de présenter quelques questions de recherche sur lesquelles porteront des études ultérieures. Enfin nous finirons en introduisant trois prototypes développés pour analyser ces questions.
Session 2
13h30 – 15h30 | Amphithéâtre S3-057 et 1er étage
Posters TALN
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas, Emmanuel Cartier et Aude Grezka.
Afficher le résumé
Résumé : Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par quelques éléments d’un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
Une métagrammaire de la morphologie verbale de l’arabe
Simon Petitjean, Younes Samih et Timm Lichte.
Afficher le résumé
Résumé : Dans cet article, nous présentons une modélisation de la morphologie dérivationnelle de l’arabe utilisant le cadre métagrammatical offert par XMG. Nous démontrons que l’utilisation de racines et patrons abstraits comme morphèmes atomiques sous-spécifiés offre une manière élégante de traiter l’interaction entre morphologie et sémantique.
Entre écrit et oral ? Analyse comparée de conversations de type tchat et de conversations téléphoniques dans un centre de contact client
Géraldine Damnati, Aleksandra Guerraz et Delphine Charlet.
Afficher le résumé
Résumé : Dans cet article nous proposons une première étude descriptive d’un corpus de conversations de type tchat issues d’un centre de contact d’assistance. Les dimensions lexicales, syntaxiques et interactionnelles sont analysées. L’étude parallèle de transcriptions de conversations téléphoniques issues d’un centre d’appel dans le même domaine de l’assistance permet d’établir des comparaisons entre ces deux modes d’interaction. L’analyse révèle des différences marquées en termes de déroulement de la conversation, avec une plus grande efficacité pour les conversations de type tchat malgré un plus grand étalement temporel. L’analyse lexicale et syntaxique révèle également des différences de niveaux de langage avec une plus grande proximité entre le client et le téléconseiller à l’oral que pour les tchats où le décalage entre le style adopté par le téléconseiller et l’expression du client est plus important.
Construction et maintenance d’une ressource lexicale basées sur l’usage
Laurie Planes.
Afficher le résumé
Résumé : Notre société développe un moteur de recherche (MR) sémantique basé sur la reformulation de requête. Notre MR s’appuie sur un lexique que nous avons construit en nous inspirant de la Théorie Sens-Texte (TST). Nous présentons ici notre ressource lexicale et indiquons comment nous l’enrichissons et la maintenons en fonction des besoins détectés à l’usage. Nous abordons également la question de l’adaptation de la TST à nos besoins.
Utilisation d’annotations sémantiques pour la validation automatique d’hypothèses dans des conversations téléphoniques
Carole Lailler, Yannick Estève, Renato De Mori, Mohamed Bouallègue et Mohamed Morchid.
Afficher le résumé
Résumé : Les travaux présentés portent sur l’extraction automatique d’unités sémantiques et l’évaluation de leur pertinence pour des conversations téléphoniques. Le corpus utilisé est le corpus français DECODA. L’objectif de la tâche est de permettre l’étiquetage automatique en thème de chaque conversation. Compte tenu du caractère spontané de ce type de conversations et de la taille du corpus, nous proposons de recourir à une stratégie semi-supervisée fondée sur la construction d’une ontologie et d’un apprentissage actif simple : un annotateur humain analyse non seulement les listes d’unités sémantiques candidates menant au thème mais étudie également une petite quantité de conversations. La pertinence de la relation unissant les unités sémantiques conservées, le sous-thème issu de l’ontologie et le thème annoté est évaluée par un DNN, prenant en compte une représentation vectorielle du document. L’intégration des unités sémantiques retenues dans le processus de classification en thème améliore les performances.
Etiquetage morpho-syntaxique en domaine de spécialité: le domaine médical
Christelle Rabary, Thomas Lavergne et Aurélie Névéol.
Afficher le résumé
Résumé : L’étiquetage morpho-syntaxique est une tache fondamentale du Traitement Automatique de la Langue, sur laquelle reposent souvent des traitements plus complexes tels que l’extraction d’information ou la traduction automatique. L’étiquetage en domaine de spécialité est limité par la disponibilité d’outils et de corpus annotés spécifiques au domaine. Dans cet article, nous présentons le développement d’un corpus clinique du français annoté morpho-syntaxiquement à l’aide d’un jeu d’étiquettes issus des guides d’annotation French Treebank et Multitag. L’analyse de ce corpus nous permet de caractériser le domaine clinique et de dégager les points clés pour l’adaptation d’outils d’analyse morpho-syntaxique à ce domaine. Nous montrons également les limites d’un outil entrainé sur un corpus journalistique appliqué au domaine clinique. En perspective de ce travail, nous envisageons une application du corpus clinique annoté pour améliorer l’étiquetage morpho-syntaxique des documents cliniques en français.
Vers une typologie de liens entre contenus journalistiques
Remi Bois, Guillaume Gravier, Emmanuel Morin et Pascale Sébillot.
Afficher le résumé
Résumé : Nous présentons une typologie de liens pour un corpus multimédia ancré dans le domaine journalistique. Bien que plusieurs typologies aient été créées et utilisées par la communauté, aucune ne permet de répondre aux enjeux de taille et de variété soulevés par l’utilisation d’un corpus large comprenant des textes, des vidéos, ou des émissions radiophoniques. Nous proposons donc une nouvelle typologie, première étape visant à la création et la catégorisation automatique de liens entre des fragments de documents afin de proposer de nouveaux modes de navigation au sein d’un grand corpus. Plusieurs exemples d’instanciation de la typologie sont présentés afin d’illustrer son intérêt.
CDGFr, un corpus en dépendances non-projectives pour le français
Denis Béchet et Ophélie Lacroix.
Afficher le résumé
Résumé : Dans le cadre de l’analyse en dépendances du français, le phénomène de la non-projectivité est peu pris en compte, en majeur partie car les données sur lesquelles sont entraînés les analyseurs représentent peu ou pas ces cas particuliers. Nous présentons, dans cet article, un nouveau corpus en dépendances pour le français, librement disponible, contenant un nombre substantiel de dépendances non-projectives. Ce corpus permettra d’étudier et de mieux prendre en compte les cas de non-projectivité dans l’analyse du français.
Utilisation des réseaux de neurones récurrents pour la projection interlingue d’étiquettes morpho-syntaxiques à partir d’un corpus parallèle
Othman Zennaki, Nasredine Semmar et Laurent Besacier.
Afficher le résumé
Résumé : La construction d’outils d’analyse linguistique pour les langues faiblement dotées est limitée, entre autres, par le manque de corpus annotés. Dans cet article, nous proposons une méthode pour construire automatiquement des outils d’analyse via une projection interlingue d’annotations linguistiques en utilisant des corpus parallèles. Notre approche n’utilise pas d’autres sources d’information, ce qui la rend applicable à un large éventail de langues peu dotées. Nous proposons d’utiliser les réseaux de neurones récurrents pour projeter les annotations d’une langue à une autre. Dans un premier temps, nous explorons la tâche d’annotation morpho-syntaxique. Notre méthode combinée avec une méthode de projection d’annotation basique (utilisant l’alignement mot à mot), donne des résultats comparables à ceux de l’état de l’art sur une tâche similaire.
Segmentation et titrage automatique de journaux télévisés
Abdessalam Bouchekif, Géraldine Damnati, Nathalie Camelin, Yannick Estève et Delphine Charlet.
Afficher le résumé
Résumé : Dans cet article, nous nous intéressons au titrage automatique des segments issus de la segmentation thématique de journaux télévisés. Nous proposons d’associer un segment à un article de presse écrite collecté le jour même de la diffusion du journal. La tâche consiste à apparier un segment à un article de presse à l’aide d’une mesure de similarité. Cette approche soulève plusieurs problèmes, comme la sélection des articles candidats, une bonne représentation du segment et des articles, le choix d’une mesure de similarité robuste aux imprécisions de la segmentation. Des expériences sont menées sur un corpus varié de journaux télévisés français collectés pendant une semaine, conjointement avec des articles aspirés à partir de la page d’accueil de Google Actualités. Nous introduisons une métrique d’évaluation reflétant la qualité de la segmentation, du titrage ainsi que la qualité conjointe de la segmentation et du titrage. L’approche donne de bonnes performances et se révèle robuste à la segmentation thématique.
Un système hybride pour l’analyse de sentiments associés aux aspects
Caroline Brun, Diana Nicoleta Popa et Claude Roux.
Afficher le résumé
Résumé : Cet article présente en détails notre participation à la tâche 4 de SemEval2014 (Analyse de Sentiments associés aux Aspects). Nous présentons la tâche et décrivons précisément notre système qui consiste en une combinaison de composants linguistiques et de modules de classification. Nous exposons ensuite les résultats de son évaluation, ainsi que les résultats des meilleurs systèmes. Nous concluons par la présentation de quelques nouvelles expériences réalisées en vue de l’amélioration de ce système.
La ressource EXPLICADIS, un corpus annoté spécifiquement pour l’étude des relations de discours causales
Caroline Atallah.
Afficher le résumé
Résumé : Dans le but de proposer une caractérisation des relations de discours liées à la causalité, nous avons été amenés à constituer et annoter notre propre corpus d’étude : la ressource EXPLICADIS (EXPlication et Argumentation en DIScours). Cette ressource a été construite dans la continuité d’une ressource déjà disponible, le corpus ANNODIS. Proposant une annotation plus précise des relations causales sur un ensemble de textes diversifiés en genres textuels, EXPLICADIS est le premier corpus de ce type constitué spécifiquement pour l’étude des relations de discours causales.
La séparation des composantes lexicale et flexionnelle des vecteurs de mots
François Lareau, Gabriel Bernier-Colborne et Patrick Drouin.
Afficher le résumé
Résumé : En sémantique distributionnelle, le sens des mots est modélisé par des vecteurs qui représentent leur distribution en corpus. Les modèles étant souvent calculés sur des corpus sans pré-traitement linguistique poussé, ils ne permettent pas de rendre bien compte de la compositionalité morphologique des mots-formes. Nous proposons une méthode pour décomposer les vecteurs de mots en vecteurs lexicaux et flexionnels.
Traitements pour l’analyse du français préclassique
Sascha Diwersy, Achille Falaise, Marie-Hélène Lay et Gilles Souvay.
Afficher le résumé
Résumé : La période « préclassique » du français s’étend sur tout le XVIe siècle et la première moitié du XVIIe siècle. Cet état de langue écrite, qui accompagne les débuts de l’imprimerie, est relativement proche du français moderne, mais se caractérise par une grande variabilité graphique. Il s’agit de l’un des moins bien dotés en termes de ressources. Nous présentons ici la construction d’un lexique, d’un corpus d’apprentissage et d’un modèle de langage pour la période préclassique, à partir de ressources du français moderne.
Classification de texte enrichie à l’aide de motifs séquentiels
Pierre Holat, Nadi Tomeh et Thierry Charnois.
Afficher le résumé
Résumé : En classification de textes, la plupart des méthodes fondées sur des classifieurs statistiques utilisent des mots, ou des combinaisons de mots contigus, comme descripteurs. Si l’on veut prendre en compte plus d’informations le nombre de descripteurs non contigus augmente exponentiellement. Pour pallier à cette croissance, la fouille de motifs séquentiels permet d’extraire, de façon efficace, un nombre réduit de descripteurs qui sont à la fois fréquents et pertinents grâce à l’utilisation de contraintes. Dans ce papier, nous comparons l’utilisation de motifs fréquents sous contraintes et l’utilisation de motifs delta-libres, comme descripteurs. Nous montrons les avantages et inconvénients de chaque type de motif.
Le traitement des collocations en génération de texte multilingue
Florie Lambrey et François Lareau.
Afficher le résumé
Résumé : Pour concevoir des générateurs automatiques de texte génériques qui soient facilement réutilisables d’une langue et d’une application à l’autre, il faut modéliser les principaux phénomènes linguistiques qu’on retrouve dans les langues en général. Un des phénomènes fondamentaux qui demeurent problématiques pour le TAL est celui des collocations, comme « grippe carabinée », « peur bleue » ou « désir ardent », où un sens (ici, l’intensité) ne s’exprime pas de la même façon selon l’unité lexicale qu’il modifie. Dans la lexicographie explicative et combinatoire, on modélise les collocations au moyen de fonctions lexicales qui correspondent à des patrons récurrents de collocations. Par exemple, les expressions mentionnées ici se décrivent au moyen de la fonction Magn: Magn(peur) = bleue, Magn(grippe) = carabinée, etc. Il existe des centaines de fonctions lexicales. Dans cet article, nous nous intéressons à l’implémentation d’un sous-ensemble de fonctions qui décrivent les verbes supports et certains types de modificateurs.
Médicaments qui soignent, médicaments qui rendent malades : étude des relations causales pour identifier les effets secondaires
François Morlane-Hondère, Cyril Grouin, Véronique Moriceau et Pierre Zweigenbaum.
Afficher le résumé
Résumé : Dans cet article, nous nous intéressons à la manière dont sont exprimés les liens qui existent entre un traitement médical et un effet secondaire. Parce que les patients se tournent en priorité vers internet, nous fondons cette étude sur un corpus annoté de messages issus de forums de santé en français. L’objectif de ce travail consiste à mettre en évidence des éléments linguistiques (connecteurs logiques et expressions temporelles) qui pourraient être utiles pour des systèmes automatiques de repérage des effets secondaires. Nous mettons en évidence que les modalités d’écriture sur les forums ne permettent pas de se fonder sur les expressions temporelles. En revanche, les connecteurs logiques semblent utiles pour identifier les effets secondaires.
Exploration de modèles distributionnels au moyen de graphes 1-PPV
Gabriel Bernier-Colborne.
Afficher le résumé
Résumé : Dans cet article, nous montrons qu’un graphe à 1 plus proche voisin (graphe 1-PPV) offre différents moyens d’explorer les voisinages sémantiques captés par un modèle distributionnel. Nous vérifions si les composantes connexes de ce graphe, qui représentent des ensembles de mots apparaissant dans des contextes similaires, permettent d’identifier des ensembles d’unités lexicales qui évoquent un même cadre sémantique. Nous illustrons également différentes façons d’exploiter le graphe 1-PPV afin d’explorer un modèle ou de comparer différents modèles.
Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots
Killian Janod, Mohamed Morchid, Richard Dufour et Georges Linares.
Afficher le résumé
Résumé : Les représentations vectorielles continues des mots sont en plein essor et ont déjà été appliquées avec succès à de nombreuses tâches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d’intégrer l’information temporelle issue du contexte des mots au sein des architectures fondées sur les sacs-de-mots continus ( continuous bag-of-words ou ( CBOW )) ou sur les Skip-Grams. Ces approches sont manipulées au travers d’un réseau de neurones, l’architecture CBOW cherchant alors à prédire un mot sachant son contexte, alors que l’architecture Skip-Gram prédit un contexte sachant un mot. Cependant, ces modèles, au travers du réseau de neurones, s’appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l’ordre des mots. En conséquence, chaque mot a potentiellement la même influence dans le réseau de neurones. Nous proposons alors une méthode originale qui intègre l’information temporelle des contextes des mots en utilisant leur position relative. Cette méthode s’inspire des modèles contextuels continus. L’information temporelle est traitée comme coefficient de pondération, en entrée du réseau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premières expériences ont été réalisées en utilisant un corpus de test mesurant la qualité de la relation sémantique-syntactique des mots. Les résultats préliminaires obtenus montrent l’apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l’architecture Skip-Gram et l’architecture CBOW.
Etiquetage morpho-syntaxique de tweets avec des CRF
Tian Tian, Dinarelli Marco, Tellier Isabelle et Cardoso Pedro.
Afficher le résumé
Résumé : Nous nous intéressons dans cet article à l’apprentissage automatique d’un étiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d’abord un jeu d’étiquettes réduit, qui permet d’obtenir de meilleures performances par rapport au jeu d’étiquettes traditionnel. Comme nous disposons de peu de tweets étiquetées, nous essayons ensuite de compenser ce handicap en ajoutant des données issues de textes bien formés dans l’ensemble d’apprentissage. Les modèles mixtes obtenus permettent d’améliorer légèrement les résultats, au prix d’un temps d’apprentissage plus long.
Caractériser les discours académiques et de vulgarisation : quelles propriétés ?
Amalia Todirascu et Beatriz Sanchez Cardenas.
Afficher le résumé
Résumé : L’article présente une étude des propriétés linguistiques (lexicales, morpho-syntaxiques, syntaxiques) permettant la classification automatique de documents selon leur genre (articles scientifiques et articles de vulgarisation), dans deux domaines différentes (médecine et informatique). Notre analyse, effectuée sur des corpus comparables en genre et en thèmes disponibles en français, permet de valider certaines propriétés identifiées dans la littérature comme caractéristiques des discours académiques ou de vulgarisation scientifique. Les premières expériences de classification évaluent l’influence de ces propriétés pour l’identification automatique du genre pour le cas spécifique des textes scientifiques ou de vulgarisation.
Extraction et analyse automatique des comparaisons et des pseudo-comparaisons pour la détection des comparaisons figuratives
Suzanne Mpouli et Jean-Gabriel Ganascia.
Afficher le résumé
Résumé : Le présent article s’intéresse à la détection et à la désambiguïsation des comparaisons figuratives. Il décrit un algorithme qui utilise un analyseur syntaxique de surface (chunker) et des règles manuelles afin d’extraire et d’analyser les (pseudo-)comparaisons présentes dans un texte. Cet algorithme, évalué sur un corpus de textes littéraires, donne de meilleurs résultats qu’un système reposant sur une analyse syntaxique profonde.
Proposition méthodologique pour la détection automatique de Community Manager. Étude multilingue sur un corpus relatif à la Junk Food
Johan Ferguth, Aurélie Jouannet, Asma Zamiti, Damien Nouvel, Mathieu Valette et Yunhe Wu.
Afficher le résumé
Résumé : Dans cet article, nous présentons une méthodologie pour l’identification de messages suspectés d’être produits par des Community Managers à des fins commerciales déguisées dans des documents du Web 2.0. Le champ d’application est la malbouffe (junkfood) et le corpus est multilingue (anglais, chinois, français). Nous exposons dans un premier temps la stratégie de constitution et d’annotation de nos corpus, en explicitant notamment notre guide d’annotation, puis nous développons la méthode adoptée, basée sur la combinaison d’une analyse textométrique et d’un apprentissage supervisé.
Posters RECITAL
État de l’art : l’analyse du dialogue appliquée aux conversations écrites en ligne porteuses de demandes d’assistance
Soufian Salim.
Afficher le résumé
Résumé : Le développement du Web 2.0 et le processus de création et de consommation massive de contenus générés par les utilisateurs qu’elle a enclenché a permis le développement de nouveaux types d’interactions chez les internautes. En particulier, nous nous intéressons au développement du support en ligne et des plate-formes d’entraide. En effet, les archives de conversations en ligne porteuses de demandes d’assistance représentent une ressource inestimable, mais peu exploitée. L’exploitation de cette ressource permettrait non seulement d’améliorer les systèmes liés à la résolution collaborative des problèmes, mais également de perfectionner les canaux de support client proposés par les entreprises opérant sur le web. Pour ce faire, il est cependant nécessaire de définir un cadre formel pour l’analyse discursive de ce type de conversations. Cet article a pour objectif de présenter l’état de la recherche en analyse des conversations écrites en ligne, sous différents médiums, et de montrer dans quelle mesure les différentes méthodes exposées dans la littérature peuvent être appliquées à des conversations fonctionnelles inscrites dans le cadre de la résolution collaborative des problèmes utilisateurs