À propos du projet de « Métadictionnaire médical multilingue de la bibliothèque numérique Medica »

Les dictionnaires et encyclopédies « de médecine, de chirurgie, de pharmacie, de l'art vétérinaire et des sciences qui s'y rapportent » (selon le titre du dictionnaire d’Émile Littré et de Charles Robin, 13e éd., Paris, 1873) représentent un trésor à la fois lexical et scientifique. Ces ouvrages illustrent non seulement la variété des progrès de la science, mais aussi l’histoire générale des pratiques lexicographiques et encyclopédiques : riches de la porosité entre langue usuelle et langue technique, ils constituent des témoins essentiels de l’histoire des mots et des idées.

Au tout début des années 2000, lorsque la BIU Santé a développé une bibliothèque numérique intéressant l’histoire de la médecine, de l’odontologie et de la pharmacie, les bibliothécaires ont défini presque aussitôt comme l’un des chantiers prioritaires la mise à disposition d’une collection importante de dictionnaires et d’encyclopédies. Quarante-neuf d’entre eux, soit 331 643 pages en 453 volumes publiés entre le début du XVIIIe siècle et le début du XXe siècle, ont été numérisés et rendus interrogeables grâce à une interface spécifique qui donnait accès aux vedettes (ou entrées de dictionnaire) indexées.

Vingt ans plus tard, le projet de « Métadictionnaire médical multilingue de la bibliothèque numérique Medica », financé par le groupement d’intérêt scientifique CollEx-Persée, a permis à la fois :

  • d’élargir le corpus des dictionnaires et encyclopédies de la bibliothèque numérique Medica ;
  • de développer une nouvelle interface d’interrogation de ce corpus ;
  • de constituer une base lexicographique inédite grâce au balisage de sept dictionnaires représentatifs et de leurs lexiques et glossaires multilingues.

Qu’est-ce que le « Métadictionnaire » ?

Métadictionnaire, compris comme « dictionnaire englobant les autres dictionnaires », est le nom que nous avons donné à la liste alphabétique unifiée regroupant toutes les vedettes de tous les ouvrages du corpus, ainsi que, par métonymie, à l’interface qui permet d’interroger cette liste, et de circuler au sein de cet immense corpus grâce aux relations que les dictionnaires eux-mêmes établissent entre les mots et les notions.

Le Métadictionnaire se comprend donc comme un trésor, ou « inventaire des unités lexicales d’une langue visant à l’exhaustivité » (selon la définition du Trésor de la langue française). Il ne cherche pas à établir une « structuration hiérarchisée d’un ou plusieurs domaines de la connaissance », au sens documentaire du terme thesaurus (voir la définition ibid.). Il met en relation des mots d’époques différentes, employés dans des contextes scientifiques et intellectuels très différents, et il a été conçu pour permettre d’apprécier les permanences ou les variations des sens et des usages des mots de la médecine et des « sciences qui s’y rapportent », que ce soit au cours des siècles, ou à une même époque, dans différents courants de pensée.

Nouveautés offertes par le Métadictionnaire

Un corpus enrichi et étendu au XVIIe siècle

Le nouveau corpus comporte 56 dictionnaires et encyclopédies en 459 volumes, et plus de 450 000 entrées sur 334 097 pages.

En particulier, trois dictionnaires comportant des vedettes en grec et/ou en latin, publiés entre 1622 et 1746, permettent d’établir des ponts vers la lexicographie ancienne :

  • L’édition de 1622 des Vingt-quatre livres de définitions médicales (Definitionum medicarum libri XXIIII) de Jean de Gorris , « enrichis et augmentés d’un grand supplément » par son petit-fils également prénommé Jean, ainsi que l’Index Latinograecus de la dernière édition de cet ouvrage qui en est pourvue (1601).
  • La version française abrégée du dictionnaire de Jean de Gorris due à François Thévenin (1658) , qui constitue la source des définitions médicales du dictionnaire de Richelet.
  • L’avant-dernière d’une longue lignée de rééditions corrigées et augmentées du Lexicon medicum Graeco-Latinum de Bartolomeo Castelli (1746) revu et enrichi par Jakob Pankraz Bruno .
Par ailleurs, le Nouveau dictionnaire de médecine, de chirurgie, de physique, de chimie et d’histoire naturelle de Joseph Capuron (1806) illustre le commencement de la lignée Nysten – Littré – Robin. (Traitement en cours, mise en ligne progressive, achèvement prévu courant 2024.)

Une nouvelle interface permettant d’interroger ce corpus

Elle offre :

  • un index unifié des vedettes de tous les ouvrages ;
  • une navigation plus fluide, permettant la consultation des pages en regard des résultats ;
  • des possibilités de requêtes plus fines (sélection d’un groupe d’ouvrages, troncature) ;
  • un accès direct à des notices détaillées de chaque ouvrage

L'intégralité des dictionnaires qui étaient présentés dans l'ancienne interface « Dictionnaires » de Medica est interrogeable depuis l'interface du Métadictionnaire.

Un accès facilité au savoir lexical et étymologique de sept dictionnaires représentatifs et de leurs lexiques et glossaires multilingues

Les données lexicales et étymologiques de sept dictionnaires et de leurs onze lexiques et glossaires multilingues ont été ou vont être repérées, encodées et rendues exploitables.

Le Métadictionnaire donne ainsi accès à différents types de mots ou d’expressions dont le lien avec la vedette est mis en évidence, dans les articles des dictionnaires, par une typographie particulière (italiques, petites capitales, crochets, tirets longs...) qui a permis de les baliser comme tels :

  • des traductions en grec et en latin, ainsi que des traductions en langues modernes (allemand, anglais, italien, espagnol) ;
  • des locutions (expressions) formées à partir des vedettes ;
  • d’autres mots explicitement mis en relation (en particulier des renvois, mais aussi des synonymes et des antonymes).

Exemple des éléments retenus lors du balisage de deux articles du Dictionnaire de médecine, de chirurgie, de pharmacie, de l'art vétérinaire et des sciences qui s'y rapportent... 13e éd. par E. Littré et Ch. Robin, Paris, 1873, p. 540.
Source : BIU Santé médecine – Université Paris Cité (Licence ouverte)

Dans l’interface :

  • la zone de recherche permet d’interroger non seulement l’index unifié des vedettes, mais aussi l’ensemble des mots et expressions qui ont été balisés, dans toutes les langues ;
  • la colonne « Mots liés » permet de faire rebondir une recherche grâce à des liens entre les mots, qui sont tous attestés, datés et documentés ;
  • la colonne « Traductions » indique de même des traductions attestées qui facilitent l’interrogation multilingue.

N.B. 1. Dans la version bêta de juin 2023, toutes les données et toutes les fonctionnalités ne sont pas encore disponibles.

N.B. 2. La présence de traductions latines facilite notamment l’accès au Medicinal Dictionary de Robert James (1743-1745) et à sa traduction par Diderot, Eidous et Toussaint (1746-1748), respectivement rédigés en anglais et en français, mais dont les vedettes sont en latin.

N.B. 3. Attention : cette base lexicographique a été conçue pour donner une idée de la richesse de l’ensemble du corpus des dictionnaires et encyclopédies, et pour faciliter sa consultation en suggérant diverses façons de faire rebondir une recherche. Elle est cependant loin d’être exhaustive : l’interface propose ainsi de relancer la recherche des « mots liés » et des « traductions » dans l’ensemble du corpus, afin de trouver d’autres relations dans les articles des dictionnaires et encyclopédies qui n’ont pas pu être balisés. De même, dans les dictionnaires non balisés, les locutions peuvent se trouver dans les articles de chacun des mots qui les constituent (p. ex. Divulsion épiphysaire dans « Divulsion » et/ou « Épiphysaire »).

Des données en accès ouvert, pour de nouvelles recherches

L’intégralité des données produites lors du projet sera proposée en accès ouvert et documentée, afin de permettre leur réutilisation dans d’autres contextes.

Perspectives

Le Métadictionnaire est appelé à se développer de diverses manières : amélioration de l’intégration des dictionnaires plus anciennement indexés ; enrichissement du corpus par de nouveaux dictionnaires, plus anciens, plus récents, ou en d’autres langues ; balisage de nouveaux dictionnaires, pour améliorer la circulation au sein du corpus et identifier d’autres termes et expressions ; introduction de nouveaux types de balises (noms de domaine, noms de rédacteurs de notices…)

Nous comptons beaucoup sur les utilisatrices et les utilisateurs de cet outil pour nous indiquer quels sont les développements qui leur semblent les plus utiles, et nous aider à les réaliser !

Mais le Métadictionnaire n’est pas seulement un outil de consultation : sa mise en œuvre a donné lieu à la production de nomenclatures qui n’existaient pas jusqu’alors, ainsi que d’une très riche base lexicale multilingue. Ces nouvelles données, tout comme l’interrogation du Métadictionnaire, ouvrent la possibilité de nouvelles recherches en histoire de la médecine et des « sciences qui s’y rapportent », en philologie classique et médiévale, en lexicologie, en lexicographie, en terminologie, ou encore en humanités numériques.

Le Métadictionnaire a déjà suscité un sujet de thèse en sciences du langage (voir infra, « Recherches en cours ») ; nous espérons qu’il pourra constituer une source d’inspiration pour d’autres travaux.

Contact

Une question ? Une remarque ? Une erreur ou une anomalie à signaler ? Une suggestion ?
Nous vous en serons reconnaissants !

Un projet de recherche qui s’appuierait sur tout ou partie du corpus ? Une proposition de collaboration, d’aide à la relecture des nomenclatures ou au balisage de nouveaux ouvrages ?
N’hésitez pas à nous contacter !

Écrire à Jean-François Vincent, Nathalie Rousseau ou Anaïs Chambat.

À propos du projet

Porteur du projet : Université Paris Cité

Partenaires : Bibliothèque interuniversitaire de santé - UMR 8167 « Orient & Méditerranée Textes Archéologie Histoire » (CNRS – Sorbonne Université) - UMR 7118 ATILF (Analyse et Traitement Informatique de la Langue Française. CNRS - Université de Lorraine)

Part CollEx-Persée : 91 825,82 euros

Calendrier : octobre 2020 – juin 2023

Équipe

Jean-François VINCENT, Coordinateur scientifique et administratif (Université Paris Cité, Direction générale déléguée aux bibliothèques et musées, BIU Santé médecine, département d’histoire de la santé)

Nathalie ROUSSEAU, Coordinatrice scientifique (Sorbonne Université, UMR 8167 « Orient et Méditerranée », Institut universitaire de France)

Sylvie BAZIN, Conseil scientifique (Université de Lorraine, UMR 7118 ATILF « Analyse et traitement informatique de la langue française »)

Anaïs CHAMBAT, Cheffe de projet (Université Paris Cité, Direction générale déléguée aux bibliothèques et musées, BIU Santé médecine, département d’histoire de la santé)

Olivier GHUZEL, Responsable technique de Medica (Université Paris Cité, Direction générale déléguée aux bibliothèques et musées, département de l’informatique)

Solenne COUTAGNE, Responsable technique du projet jusqu’en décembre 2021 (Université Paris Cité, Direction générale déléguée aux bibliothèques et musées, BIU Santé médecine, département d’histoire de la santé) ; conseil technique depuis janvier 2022 (bibliothèque du Muséum national d’histoire naturelle)

Frédéric GLORIEUX, Conception et réalisation de l’interface, indexation fine et structuration des données (Optéos, Lille)

Cahal TAAFFE, Chargé de l’entraînement des gabarits OCR (Lyon)

Marie-France CLAEREBOUT, Rédactrice spécialisée (Lille)

Fabrice ROBERT, Helléniste (Paris)

Quelques dates

Début 2000 : création de la bibliothèque numérique Medica de la BIUM (Bibliothèque interuniversitaire de médecine), devenue depuis BIU Santé (en 2023 : 24 000 ouvrages en ligne, soit 5,5 millions de pages).

À partir de 2004 : intégration de dictionnaires médicaux et encyclopédies, interrogeables par une application spécifique (en 2022 : 49 dictionnaires et encyclopédies, soit 331 643 pages en 453 volumes).

Octobre 2018 : début de la phase préparatoire du projet, soutenue par une « Bourse individuelle Numérisation » CollEx-Persée accordée à Nathalie Rousseau.

Décembre 2019 : clôture de la phase préparatoire par une demi-journée de rencontre intitulée « Explorer un corpus de dictionnaires : quels outils pour quels résultats ? ».

Octobre 2020 : début du projet, retenu parmi les projets lauréats de l’appel à projets collaboratifs « Numérisation enrichie – Services à la recherche CollEx-Persée 19_20 ».

Septembre 2022 : journée d'étude intitulée « Autour du Métadictionnaire médical multilingue de la bibliothèque numérique Medica ».

Recherche

Journée d’étude

La journée d’étude intitulée « Autour du Métadictionnaire médical multilingue de la bibliothèque numérique Medica », qui s’est déroulée le 23 septembre 2022 à Paris (Maison de la recherche de la Faculté des Lettres de Sorbonne Université & BIU Santé Médecine), a réuni des chercheurs d’horizons divers afin de mettre à l’épreuve ce nouvel outil et d’échanger sur les nouvelles perspectives de recherche qu’il permet d’ouvrir.

Publications

CHAMBAT Anaïs, « La lignée “Capuron – Nysten – Littré” entre ruptures et continuités doctrinales », in KLOSA-KÜCKELHAUS Annette, ENGELBERG Stefan, MÖHRS Christine & STORJOHANN Petra (eds.), Dictionaries and Society. Proceedings of the XX. EURALEX International Congress, Mannheim: IDS-Verlag, 2022. – Disponible à l’adresse suivante : https://euralex.org/publications/la-lignee-capuron-nysten-littre-entre-ruptures-et-continuites-doctrinales/

En préparation: « Circuler dans les données lexicales, susciter de nouveaux savoirs : conception et usages des dictionnaires numériques ». Numéro spécial de la revue Humanités numériques. Éditeurs invités : Sylvie BAZIN, Anaïs CHAMBAT, Nathalie ROUSSEAU et Jean-François VINCENT. Parution prévue au printemps 2024.

Communications

CHAMBAT Anaïs & ROUSSEAU Nathalie, « Le projet CollEx-Persée “Métadictionnaire médical multilingue de la bibliothèque numérique Medica” : genèse, enjeux et nouvelles pistes de recherche », Séminaire d’équipe du Laboratoire Lexiques, Textes, Discours et Dictionnaires – centre Jean Pruvost (EA 7518), CY Cergy Paris Université, 17 mai 2022.

CHAMBAT Anaïs, ROUSSEAU Nathalie & VINCENT Jean-François, « Faire dialoguer les anciens dictionnaires de médecine à l'ère du numérique », International Conference on Historical Lexicography and Lexicology, Lorient, 23 juin 2022.

CHAMBAT Anaïs, « La lignée “Capuron – Nysten – Littré” entre ruptures et continuités doctrinales », XX. EURALEX International Congress, Mannheim, 16 juillet 2022. (communication publiée : voir supra)

CHAMBAT Anaïs & ROUSSEAU Nathalie, « Comment donner accès à un corpus de dictionnaires ? L’expérience du projet CollEx-Persée Métadictionnaire médical multilingue de la bibliothèque numérique Medica », Atelier des Humanités Numériques, ENS de Lyon, 17 janvier 2023.

CHAMBAT Anaïs & TAAFFE Cahal, « Numériser et structurer les dictionnaires du projet CollEx-Persée “Métadictionnaire médical multilingue de la bibliothèque numérique Medica” : approches et méthodes », Journée d’études « Acquisition et structuration des dictionnaires anciens » dans le cadre du projet ANR BASNUM, Paris, 8 février 2023.

ROUSSEAU Nathalie & VINCENT Jean-François, « Le “Métadictionnaire médical multilingue de la bibliothèque numérique Medica”, rétrospective et perspectives », Journée d’études « Acquisition et structuration des dictionnaires anciens » dans le cadre du projet ANR BASNUM, Paris, 8 février 2023.

CHAMBAT Anaïs, ROUSSEAU Nathalie & TAAFFE Cahal, « À la source des définitions médicales de Richelet : les défis de la transcription et du balisage du De Gorris (1622) et du Thévenin (1658) », Colloque de clôture de l’ANR BASNUM « Le monde de Basnage et son dictionnaire universel », Grenoble, 25 mai 2023.

CHAMBAT Anaïs & ROUSSEAU Nathalie, « Rien de trop : jusqu'où baliser un corpus hétérogène de dictionnaires anciens pour obtenir des résultats aussi homogènes que possible ? », Colloque Humanistica 2023, Genève, 27 juin 2023.

Recherches en cours

CHAMBAT Anaïs, « Expérimenter la porosité entre la langue générale et la langue technique des sciences médicales : de l’Encyclopédie méthodique de médecine à la 21e édition du Dictionnaire de médecine (1787-1908) ». Thèse en sciences du langage, en préparation depuis le 1er octobre 2022, sous la direction du professeur Christophe REY, Laboratoire Lexiques, Textes, Discours et Dictionnaires – centre Jean Pruvost (EA 7518), CY Cergy Paris Université.

Partenaires