Euromap Technologies de la Langue
Promouvoir l'ingénierie linguistique en Europe

Success stories

 

La propriété industrielle et le choix du langage naturel


Notre étude de cas illustre une collaboration entre l’équipe de l’Institut National de la Propriété Industrielle (INPI) et celle de Lingway. Cette collaboration a abouti à la création, au développement et à l’amélioration constante d’un moteur de recherche en langage naturel dédié à la propriété industrielle.

L’INPI

L’Institut National de la Propriété Industrielle (INPI) est un établissement public autonome, créé en 1951 et placé sous la tutelle du ministère de l’Economie, des Finances et de l’Industrie.

L’institut a pour mission de développer et d’organiser la propriété industrielle afin de protéger l’innovation. Au service des grandes entreprises, des PME-PMI, des inventeurs et des chercheurs, l’Institut s’adresse à un public très large d’innovateurs qui ont recours à ses services ; en amont de l’innovation, il met à leur disposition la documentation technique issue des brevets, ainsi que la documentation sur les marques et les informations sur les entreprises (Registre du commerce et des sociétés). Enfin, il permet l’accès aux procédures nationales et internationales pour les dépôts de brevets et les enregistrements de marques et de dessins et modèles.

L'effectif de l'INPI est de 793 personnes répartis sur quinze sites : Paris, Nanterre, Compiègne et 12 délégations régionales.

L’Institut, à la différence de la plupart des établissements publics administratifs, finance intégralement ses dépenses par ses recettes propres, provenant essentiellement des redevances de procédures et des services d’information. En 2000, les recettes de fonctionnement se sont élevées à près de 126 millions d’euros.

Lingway

Lingway est une société fondée en septembre 2001 par une équipe de linguistes et d'informaticiens issus de LexiQuest (anciennement ERLI), un éditeur de logiciels opérant dans le domaine. Elle est dirigée par Bernard Normier.

Lingway est une société spécialisée dans la conception, le développement et l'implémentation de logiciels basés sur la linguistique.

  • Conception : Lingway définit une solution adaptée à un problème nouveau, en combinant divers outils logiciels et ressources linguistiques, existants ou à développer ;
  • Développement : Lingway intervient dans les deux types de développement nécessaires, au niveau des logiciels et des ressources linguistiques ;
  • Implémentation : Lingway met notamment en place diverses méthodologies.



 

Liens

Institut National de la Propriété Industrielle (INPI)

Lingway

CIB-LN

Plutarque.com

Projet ePatent (site en anglais)

 

Adresses

INPI
26 bis, rue de Saint-Pétersbourg
75 800 Paris Cedex 08
Tel. : 01 56 20 28 30
Fax : 01 56 20 28 31

Lingway
Bâtiment C
33-35 rue Ledru Rollin
94200 Ivry-sur-Seine
Tel. : 01 56 20 28 30
Fax : : 01 56 20 28 31

 

Contacts

Isabelle Leclerc
Directrice marketing du département documentation et information
ileclercq@inpi.fr

Dominique Maret
Directeur de projets
dominique.maret@lingway.com

Les équipes de Lingway disposent d'une très grande expertise dans les champs d’application suivants : génération automatique de textes, traduction automatique, aide à la lecture en langue étrangère, indexation automatique et catégorisation, interfaces en langage naturel pour la recherche et le codage de l’information et résumé automatique de textes.

Lingway entretient des liens étroits avec des organismes tels que l’INSEE, SchlumbergerSema, Paris Biotech et les différents participants du projet ePatent. En effet, Lingway entend être l’un des acteurs majeurs dans le domaine de la propriété industrielle.

L’effectif de Lingway est de 13 personnes.

Historique

Au début des années 90, il ressortait des études marketing que les utilisateurs potentiels mais occasionnels des services d’information de l’INPI (personnes travaillant dans des administrations chargées de la délivrance des brevets, inventeurs potentiels, étudiants, personnes travaillant dans des organismes d'étude et de développement, personnes s’appliquant ou mettant au point des techniques) attendaient un service simple et rapide qui leur permette d’accéder instantanément au texte intégral des brevets pertinents.

L’INPI, assurant son rôle de précurseur dans le domaine des technologies de l’information et de la communication et désirant renforcer sa mission de diffusion d’information (article 1 du code de la propriété industrielle), décide alors de répondre aux besoins et aux attentes de ce public non spécialiste en développant un système d’accès simple et rapide aux données brevets via Internet.

Le choix des technologies de Lingway

Dans un premier temps, l’INPI identifie les outils d’indexation et de recherche existants alors sur le marché. Différentes comparaisons de ces outils sont ensuite effectuées, au moyen de corpus spécialisés spécifiquement constitués pour ces tests. Les taux de pertinence et de performance obtenus par la solution d’indexation et de recherche d’information en langage naturel de la société Linway (à l'époque ERLI), dirigé par Bernard Normier, convainc Isabelle Leclercq, directrice marketing du département documentation et information à l’INPI, de choisir cette solution et de créer, en collaboration avec ERLI, un prototype. Ce prototype ne cessera d’évoluer au cours des années jusqu’à sa mise en ligne sur le site de l’INPI, sous le nom de CIB-LN, en 1998, dans une version finalisée.

Classification Internationale des Brevets (CIB) et Langage Naturel (LN) : une alliance efficace

CIB-LN repose sur l’utilisation d’un dictionnaire de la propriété industrielle et permet d’effectuer en français des recherches en langage naturel sur les brevets publiés au cours des 24 derniers mois, grâce à la Classification Internationale des Brevets (CIB).

Chaque requête en langage naturel de l’utilisateur est analysée, enrichie et transformée en requête booléenne, qui donne lieu à une recherche dans la CIB. Les réponses trouvées sont affichées sous la forme d’une liste triée par ordre de pertinence décroissante des entrées (les entrées les plus pertinentes sont d’abord présentées). Dans cette liste, on peut alors choisir le code de l’entrée que l’on désire consulter. La sélection d’une entrée permet dès lors de naviguer dans la CIB, c’est-à-dire de consulter l’ensemble des informations associées à cette entrée et notamment les autres entrées auxquelles cette entrée est liée.

L’originalité de ce moteur de recherche, on le voit, réside dans le choix par les deux organismes développeurs d’une approche, langage naturel sur filtre CIB. Cette approche en fait un outil à la fois simple et efficace destiné à des utilisateurs divers et pas forcément familiarisés avec les techniques de recherche existantes aujourd’hui ou encore avec le vocabulaire de la propriété industrielle ou le domaine qui fait l’objet d’une recherche.

Déploiement multilingue de CIB-LN : le projet ePatent et Plutarque

Plusieurs études de marché et enquêtes-utilisateurs ont montré les besoins réels en termes de traitement multilingue. C’est dans ce contexte que, fin 2001, l’INPI répond avec d’autres partenaires à l’appel d’offre eContent lancé par la Commission européenne dans le but de simplifier l’accès à l’information concernant la propriété industrielle en Europe.

Le projet ePatent associe plusieurs types de partenaires (offices de brevets européens et prestataires technologiques tels que Lingway). Il a notamment pour objectif de fédérer les bases de données relatives aux brevets de plus de 40 pays en créant une interface de recherche multilingue (4 langues sont prévues : le français, l’anglais, l’espagnol et l’allemand) en langage naturel, nommée Plutarque. Ce projet vise également à offrir aux différents usagers une aide à la compréhension (à la lecture). La société Lingway, impliquée dans le projet, est chargée de la dimension multilingue de Plutarque.

Par ailleurs, Plutarque devrait couvrir non seulement les brevets, comme nous l’avons signalé ci-dessus, mais également les marques, les modèles et les dessins alors qu’auparavant, deux bases cohabitaient sur le service : une base « brevets » et une base « dessins et modèles ».

Plutarque est actuellement en phase de tests et devrait être accessible en septembre 2002, dans sa version française et anglaise. Les versions allemande et espagnole sont prévues pour 2003.

Investissement

CIB-LN est le résultat de plusieurs années de R&D et représente un important investissement à la fois pour l’INPI (plus d’un million d’euros sur une période de 10 ans) et pour l’équipe technique d’ERLI/Lingway. Pour le projet ePatent, la Commission européenne contribue à hauteur de 50 % de financement global, soit une enveloppe d’un million d’euros au consortium ePatent.

Résultats et avantages

Le moteur de recherche, accessible sur le site de l’INPI, et bientôt disponible dans une version multilingue et plus complète (en matière de contenu), présente plusieurs avantages pour ceux et celles qui recherchent des informations sur les brevets, exposés ci-dessous :

  • le langage naturel permet à une large variété d'utilisateurs d'accéder plus facilement à l'information. Inutile de connaître la terminologie de la propriété industrielle, la codification complexe utilisée ou bien de maîtriser le domaine ; l’utilisateur utilise sa propre terminologie et le langage courant ;
  • il n’est pas non plus nécessaire de maîtriser les différents langages d’interrogation ;
  • la CIB, en tant que système de classement hiérarchique, permet un classement uniforme des brevets à l'échelon international et s’avère ainsi être un critère de recherche efficace ;
  • cette démarche permet, si on la compare avec les approches langage naturel sur texte intégral des brevets, d’obtenir des réponses nettement plus pertinentes et de limiter le phénomène de bruit causé par le texte intégral, d’autant que les informations concernant les brevets sont souvent artificiellement cachées ;
  • elle permet également de contourner la barrière de la langue dans la mesure où les brevets trouvés sont présentés avec le code de classification qui leur a été attribué ; il est ainsi possible de naviguer dans la CIB, en sélectionnant les codes de classification, et d’accéder à des informations proches ou associées à celles que l’on recherche, ce qui ne nécessite pas de connaître telle ou telle langue.

Ces moyens de recherche ont donné lieu, suite au lancement de CIB-LN en 1998, à une augmentation significative du nombre de connexions sur son site et du nombre de requêtes professionnelles saisies (environ 30000 requêtes par mois). L’Institut a par ailleurs reçu plusieurs retours positifs de la part des utilisateurs par l’intermédiaire du webmaster du site. L’INPI s’attend à autant d’enthousiasme pour l’ouverture du site Plutarque.com.

Perspectives

CIB-LN et aujourd’hui Plutarque sont des services à forte valeur ajoutée qui constituent un enjeu important dans le domaine de la propriété industrielle. L’OMPI envisage d’ailleurs de créer un partenariat avec l’INPI afin d’étendre le système à l’ensemble des langues des Nations Unies.

La première version de Plutarque devrait être gratuite et passer en mode payant ultérieurement.

Plutarque devrait intégrer un système de recherche à partir des structures chimiques, qu’il suffira de dessiner à l’écran. Plutarque devrait également proposer des recherches de logos de marques et de reproductions de dessins et modèles à partir d’une photo ou d’une image. Sur ce point, Lingway et l’INPI envisagent de permettre une recherche de dessins alliant l’image et le langage naturel.

Remerciements

Cette enquête a été réalisée par ELDA grâce au témoignage d’Isabelle Leclercq de l’INPI et de Dominique Maret de Lingway. Nous les remercions pour leur coopération.