Le Projet Textcoop
Origines du projet
A l’heure actuelle, les outils de gestion de l’information (moteurs de recherche, catégoriseurs, outils d’extraction d’informations, etc.) abordent le flux informationnel soit de manière grossière (l’unité traitée est le document), soit de manière fine (l’unité est le mot, le groupe de mots et au plus la phrase).
La structure informationnelle des documents est rarement prise en compte alors que la connaissance de cette structure (subdivision en parties sémantiques de l’information – définition, pré-requis, etc. – et extraction des relations entre ces subdivisions) s'avère souvent cruciale pour certaines tâches, comme le repérage de parties pertinentes en réponse à une question posée ou pour une aide à la navigation ou pour la recherche d'informations.
De même, le fait que les documents se rattachent à tel ou tel type (manuel technique, texte de loi, rapport de stage,…) intervient généralement assez peu et les systèmes existants utilisent les mêmes outils, réalisent les mêmes traitements quel que soit le type du texte.
Pourtant, les différents types de textes ont souvent des structures et des fonctionnements propres qu'il peut être utile de spécifier pour simplifier et adapter et grandement améliorer les traitements. Par exemple, on profitera de la régularité d'organisation des textes de recette de cuisine pour cibler la recherche de la liste des ingrédients dans une partie bien définie du texte.
La création d'outils plus performants de gestion des données textuelles nous semble passer par un double travail.
D'une part, un travail portant, en amont, sur la typologie des textes afin de pouvoir tenir compte de leurs spécificités et de s'y adapter pour être plus performants
d'autre part un travail sur la structure informationnelle des documents pour laquelle nous proposerons l'étude de grammaires de textes adaptées aux types des textes traités. C'est dans ce but que nos trois organismes se sont regroupés :
- Sinequa commercialise des outils de gestion de l’information, en particulier un moteur de recherche, Intuition. Celui-ci utilise une représentation thématique des documents en se basant sur des analyses linguistiques. Si la qualité du moteur Intuition a permis à Sinequa de devenir la première référence dans ce domaine en France, nous pensons que l’inclusion d’analyses plus structurelles et typologiques permettrait d’améliorer ses performances.
- Les travaux de l’IRIT sur les grammaires de textes permettent d’effectuer une analyse intermédiaire entre le document global et les mots. Les premières expérimentations à l’IRIT montrent que ces grammaires permettent une meilleure analyse et compréhension des documents et permettent une meilleure visualisation de la réponse lorsqu’elle n’est pas juste un mot pour l’utilisateur final. Il ne s’agit pas d’un nouvel outil d’indexation mais plutôt d’un traitement intermédiaire nécessaire permettant un meilleur découpage et donc une analyse plus précise des documents. Les textes traités ne seront plus simplement indexés, mais segmentés et au contenu sémantiquement identifié par rapport à la grammaire établie.
- Le LIPN travaille depuis plusieurs années sur l’analyse de textes de spécialités et sur l’adaptation des outils de TAL et de leurs ressources à différents sous-langages et différents types de textes. Ces travaux ont permis de montrer l’importance de cette notion de typologie textuelle et les recherches menées actuellement au LIPN visent dresser une typologie des types de textes et de développer les outils nécessaires à la catégorisation des documents. Tous les types de textes (manuel utilisateur, recommandations médicales, documentation technique, inventaire, article scientifique, discours, etc.) ne peuvent pas être appréhendés de la même manière. La grammaire des textes est elle-même en partie dépendante du type des textes considérés. La prise en compte de la typologie des textes serait un grand avantage pour un moteur de recherche, pour, par exemple, faire intervenir des traitements linguistiques adaptés (détection de certains types d’entités, etc.) ou apprécier la fiabilité des informations contenues dans une page web. Par ailleurs, le LIPN est un spécialiste reconnu de l’extraction d’information. Des outils d’aide à la création de grammaires sont ainsi envisageables.
La mise en relation de ces trois compétences a motivé l’idée d’un projet qui permettra aux outils de gestion de l’information de traiter les niveaux typologiques (type de document) et structurels et ainsi d’améliorer leurs performances intrinsèques et leur interaction avec l’utilisateur.
Ces trois équipes, qui ont déjà l’expérience de collaborations bilatérales, souhaitent mettre en commun leur savoir faire pour élaborer des solutions originales permettant d’améliorer la pertinence, la fiabilité et le confort des moteurs de recherche.
Les grammaires de texte
Les grammaires de textes, et les dispositifs complémentaires, sont un outil de structuration des documents beaucoup plus puissant que l’indexation de textes ou les principes du Web sémantique, dont ils constituent une amplification. Ces grammaires, de par l’analyse structurelle et sémantique des textes qu’elles introduisent, permettent de :
- mieux cibler les zones sur lesquelles une information peut être recherchée;
- bien structurer toute l’information sur la forme et le contenu.
Cela est crucial, par exemple, pour la recherche et la génération de réponses dans les systèmes de question/réponse. Il ne s’agit plus de trouver une information ponctuelle mais un ensemble d'informations structurées. La complexité des grammaires de textes devra être maîtrisée par des outils d’acquisition et par le ciblage, comme cela se fait habituellement, à des domaines ou des types de textes.
Les grammaires de textes, orientées recherche d’informations et question-réponses, sont donc une vision novatrice, basée sur une vision macro-sémantique des textes. Les grammaires de textes telles que nous les concevons sont en fait un compromis entre des formes classiques de grammaires, cependant un peu trop rigides pour notre propos, et un ensemble de principes, plus modulaires, qui vont traiter séparément et en interaction, des différentes facettes des textes.
Les typologies textuelles
Les grammaires de textes, si elles sont un atout pour la structuration des documents, dépendent du type des textes, du moins si l’on veut une granularité fine.
Les travaux de l’IRIT ont montré que l’ensemble des textes procéduraux (recettes de cuisine, notices de montage, etc.) présentent une certaine régularité.
Néanmoins, le contenu est, lui, totalement différent et si l’on peut envisager une grammaire générique pour tous les documents procéduraux, il sera peut-être nécessaire de créer des grammaires spécifiques pour traiter certains points précis de textes plus ciblés. Un texte de maintenance d'appareil n'est pas totalement structuré de la même façon qu'un curriculum vitae qui n'obéit pas lui-même aux même contraintes qu'une recette de cuisine …
Une étude sur la typologie des textes est donc indispensable afin d'intégrer cette variation, de faire apparaître les régularités linguistiques, qu'elles proviennent du lexique, de la syntaxe (y-a-t-il des catégories syntaxiques, des formes syntaxiques privilégiées ?) ou plus largement de la mise en forme typographique et visuelle.
La mise en évidence de facteurs invariants à l'intérieur d'un même type de textes aussi bien que discriminants d'un type de textes à l'autre est nécessaire à la définition de grammaires dédiées.
Une étude de la généricité des grammaires obtenues est également importante afin de factoriser au bon niveau les éléments communs d'organisation, quitte à les préciser ensuite pour un type de textes plus spécifique. Par exemple, on pourra ou non distinguer, au sein du genre “procédural” le type “mode d'emploi” du type “textes de loi” selon que les variations qui ont lieu posent ou non problème pour la tâche en question.
Applications visées
Ces travaux sur les typologies et les grammaires de textes trouvent une application naturelle dans le domaine de l’aide à la rédaction. Ils permettent en effet de structurer de manière automatique (ou semi-automatique) des documents que l’utilisateur n’aurait pas le temps de structurer lui-même. Cela permet par exemple de mettre des documents produits dans une organisation aux normes choisies voire de projeter le contenu du document sur un réseau de connaissances formant une instanciation du web sémantique.
Mais les applications visées dans le cadre du présent projet portent plus spécifiquement sur les outils d’accès à l’information textuelle. Trois applications cibles intégrant typologies et grammaires de textes sont visées dans ce projet :
- Moteurs de recherche : l’inclusion des grammaires dans le moteur de recherche Intuition permettra une visualisation plus précise du résultat d’une requête et permettra ainsi une amélioration de l’interaction avec l’utilisateur en favorisant la lecture rapide. Par ailleurs, la segmentation structurelle des documents au moment de l’indexation devrait permettre une amélioration des résultats intrinsèques du moteur (en termes de rappel/précision). Nous évaluerons également cet aspect ;
- Extraction d’informations : le développement de grammaires permettant de décrire des documents selon leur nature (textes de loi, textes de maintenance, CV, etc.), ainsi que de typologies permettant de détecter ce type de documents, permettront de développer plus rapidement des outils d’analyse de ces textes afin d’en extraire de l’information de façon plus précise et complète ;
- Systèmes question-réponse : les systèmes de question-réponses développés à l’heure actuelle mettent surtout l’accent sur le traitement de la question. Or, un traitement adéquat des documents pouvant contenir l’information permettrait une réponse beaucoup plus rapide et précise. Pour les questions non-factoides, ces grammaires permettront de mieux localiser la réponse afin d’extraire une portion structurellement cohérente de texte. Cela est essentiel pour y répondre de façon adéquate.
Afin de valider l’intérêt des grammaires et des typologies, nous nous concentrerons sur les documents de type procédural. Ces documents ont comme caractéristique commune d'expliquer comment on doit procéder pour réaliser un but. Les documents procéduraux regroupent des thèmes de natures très diverses : modes d’emploi, recettes de cuisine, manuels de maintenance, manuels didactiques, notices, etc. Ils sont donc à la fois homogènes dans leur fonction (guider à la réalisation d'une tâche) et hétérogènes dans leur genre.
Ce qui nous intéresse dans ces textes par rapport à l'objectif du projet, c'est, au moins à l'intérieur d'un genre donné, la régularité de leur organisation, la présence de certaines composantes (liste de matériel requis, avertissement, instructions, conseils, etc.) et les relations entre elles.
Des « grammaires » spécifiques permettront de décrire le comportement structurel de tels documents afin de déterminer quelles parties comportent une description, des instructions, des conditions de réalisation, des buts etc.
