Le fichier Jacques Léonard dans la Base biographique

Des manuscrits dans la base de données

Comme nous l’avons indiqué il y a peu, la Bibliothèque interuniversitaire de Santé a récemment rénové sa Base biographique, qui contient actuellement 51 000 noms de médecins ou de personnes ayant un rapport avec la santé en général.

Nous venons de charger un nouveau lot dans la Base biographique. Il s’agit de 4330 fiches réalisées par Jacques Léonard, historien de la médecine décédé en 1988 (cotes : Ms 5531-1 à -3 et Ms 5531-5 pour le fichier). Ces fiches manuscrites, au format A5, rangées initialement dans des boîtes à chaussures, sont le résultat de l’immense dépouillement d’archives réalisé par Jacques Léonard pour ses thèses (Les médecins de l’ouest au XIXe siècle, thèse d’État, Paris IV, Paris, 1978, et Les Officiers de santé de la Marine française de 1814 à 1835, thèse de doctorat 3ème cycle, Rennes, 1967). Elles donnent des informations brutes sur des médecins pour la plupart peu connus, et dont l’immense majorité n’était pas présents notre Base biographique – en somme, tous les petits bonshommes qui ont mis en œuvre la médecine réelle dans l’Ouest de la France au XIXe siècle, et dans la Marine au début du même siècle.

Ces informations devraient être utiles notamment aux historiens de la médecine, aux historiens locaux, et aux généalogistes.

Le chargement des fiches de Jacques Léonard rend hommage à la générosité de Mme Jacqueline Léonard, donatrice de cet ensemble. Il constitue une valorisation effective des données de la recherche, une notion fort à la mode dans les discussions entre professionnels de la documentation.

Par ailleurs, il va dans le sens de la valorisation de données hétérogènes, qui est une particularité de notre Base biographique : elle contient en effet aussi bien des notices biographiques sous différentes formes, que des références bibliographiques d’articles ou de livres consultables sur place, des liens hypertextes vers des imprimés numérisés à la BIU Santé ou ailleurs, des portrait ou bien, comme dans ce cas, des liens vers des documents manuscrits numérisés.

Les manuscrits sont ainsi rendus directement utilisables alors que d’ordinaire, l’accès à ce type de documents étant un peu difficile (unicité, visibilité généralement plus faible que celle des imprimés, difficultés de lecture, etc.), ils sont sous-exploités.

L’hétérogénéité de notre base n’est bien sûr pas un mérite en soi. Elle prend seulement acte du fait que les données biographiques sont de nature hétérogène. L’usager ne cherche pas un livre, un article numérisé ou un manuscrit : il cherche de l’information biographique, sous quelque forme que ce soit.

La plupart du temps, les fiches de Jacques Léonard sont lisibles et compréhensibles. Elles ont cependant été écrites pour lui-même et non pour la diffusion : certaines indications codées ne nous sont pas intelligibles.

Il n’en reste pas moins que la masse importante de données présentée ici servira aux chercheurs, nous n’en doutons pas.

Jean-François Vincent

Service d’histoire de la santé

Les portraits de la BIU Santé dans Wikimédia Commons

La BIU Santé profite de la période estivale pour revenir sur un projet important de 2017-2018, le versement de certaines de ses numérisations sur Wikimedia Commons.

Une affaire de sources

Dans sa banque d’images et de portraits, la BIU Santé propose plus de 230.000 images, téléchargeables gratuitement. Elles sont pour la plupart libres de droits, et réutilisables sous la licence Etalab. Ces clichés sont issus des numérisations réalisées pour notre bibliothèque numérique Medic@ (plus de 4,5 millions de pages de textes en ligne), de nos collections iconographiques et des fonds d’images de nos partenaires.

Jusqu’à présent, ces images n’étaient consultables que via le site de la BIU Santé. Ce qui ne les empêchait pas d’être abondamment réutilisées sur des sites tiers, comme Wikipédia ou Pinterest (où la BIU Santé possède d’ailleurs un compte ;-). Quand le projet démarre, près de 300 images issues de la BIU Santé sont déjà repérées sur Commons. Ces emprunts en ligne ne sont pas toujours accompagnés des (bonnes) mentions de sources. Cela va à l’encontre de la licence Etalab choisie par la bibliothèque, mais c’est surtout préjudiciable pour les documents eux-mêmes. En perdant leur mention d’origine, ils perdent une partie de leur histoire et de leur valeur.

Suivant l’exemple d’autres institutions culturelles (comme la Wellcome Library ou le muséum de Toulouse), la BIU Santé s’est donc interrogée sur l’opportunité de déposer elle-même ses images sur Wikimedia Commons. Pour qu’elles soient plus visibles et plus facilement accessibles aux internautes du monde entier. Et pour être sûr que les références et mentions de sources soient bien rédigées (on n’est jamais mieux servi que par soi-même !).

On commence modestement

Par l’entremise de Sylvain Machefert (merci à lui), les équipes de la BIU Santé prennent contact avec l’association Wikimédia France. Une convention est alors signée, pour le dépôt d’un premier lot d’images, ayant valeur de test. On choisit de se faire la main sur les portraits présents dans la banque d’images. Ils ont l’avantage de constituer un ensemble clairement défini, lié en outre à des notices d’autorité (noms de personnes). Édouard Hue, concepteur d’un outil de versement d’images sur Commons (ComeOn!) et bénévole de l’association, travaille avec la bibliothèque pour ce premier essai.

Notre lot de portraits est donc constitué de 3775 fichiers. 3203 étaient liés à une notice de notre base biographique (en l’occurrence, le nom de la personne représentée par le portrait). Dans cette notice figuraient notamment les informations élémentaires que sont le patronyme et les dates de naissance et de mort. Avec parfois plusieurs portraits pour une même personne. Au final, les 3203 fichiers correspondaient en fait à 1541 autorités / personnes distinctes.

Édouard Hue, de dos, au travail à la BIU Santé

Pour que le versement soit le plus complet possible, il a été décidé de lier nos métadonnées avec des référentiels extérieurs. OpenRefine a été utilisé pour ce travail de pré-alignement de nos données.

Le référentiel le plus logique à viser pour un versement sur Commons était bien évidemment Wikidata. Pas de chance, aucun connecteur fiable n’existait à l’époque pour pré-aligner des données sur Wikidata à partir d’OpenRefine 2.6. Qu’à cela ne tienne, les bibliothécaires se sont tournés vers VIAF, autre grand référentiel, bien adapté pour des portraits, faciles à lier à des notices d’autorité. Les identifiants VIAF trouvés servent de données-pivots et permettent de récupérer des identifiants Wikidata dans un second temps.

Continuer la lecture de « Les portraits de la BIU Santé dans Wikimédia Commons »

Tout ce que vous avez toujours voulu savoir sur la Base biographique de la BIU Santé

Une nouvelle version lancée ce jeudi

La Base biographique de la BIU Santé a été restructurée, et sa nouvelle version vient d’être publiée.

La Base biographique de la BIU Santé, le 24 mai 2018

La Base biographique, c’est aujourd’hui un ensemble de 46231 fiches nominatives, et de 83761 sources distinctes. On peut espérer y trouver des informations et des références bibliographiques sur toute personne ayant contribué à l’histoire de la santé, de tous les lieux, de toutes les époques.

 

Réorganisation des données

Sans doute l’usager occasionnel de la Base biographique ne sera-t-il pas bouleversé lors de son prochain passage par le changement qui s’est opéré.

C’est même notre souhait que ses habitudes de recherche ne soient pas trop perturbées. Un outil de recherche doit être aussi simple que possible, et il n’est pas nécessaire qu’il paraisse perfectionné ou innovant, mais seulement qu’il rende le service qu’il doit rendre, et mieux qu’hier si possible.

Donc, notre chercheur percevra peut-être, cela nous l’espérons, une meilleure organisation des données. Il trouvera peut-être que les informations qui sont données sont plus claires et mieux expliquées.

Enrichissements

Un fait essentiel est toujours difficilement perceptible lorsqu’on consulte une base de données : c’est la dimension de ce réservoir d’informations. Sur ce point, nous avons la satisfaction d’annoncer que la nouvelle version contient nettement plus de données que la précédente.

Notamment, le dépouillement systématique de quelques grosses sources biographiques systématiques (par exemple le Dictionnaire historique de la médecine ancienne et moderne d’Eloy (1778), le Dictionnaire encyclopédique des sciences médicales de Dechambre (1864- 1889), ou le Dictionary of medical biography de W. et H. Bynum (2007) comblent des lacunes qui résultaient du mode de constitution de la version précédente de la base biographique. Le développement de celle-ci était en effet, légitimement d’ailleurs et très utilement, fondé surtout sur le dépouillement au fil de l’eau des entrées de documents dans les fonds de la bibliothèque. On y trouvait ainsi et on y trouve toujours des sources rarement citées ailleurs, mais on pouvait regretter que certains noms importants ne soient pas du tout présents, parce que le hasard des publications et des entrées ne les avaient pas fait rencontrer. Ces lacunes devraient être plus rares.

Prise en charge de données hétérogènes

D’autre part, la nouvelle base biographique est structurée pour pouvoir prendre en charge des données de nature très hétérogène. Essayons de nous expliquer.

Et ceci se passait dans des temps très anciens…

À l’origine, la Base biographique de la BIU Santé était un fichier bio-bibliographique. Les fiches, de très petit format, comportaient un nom, quelques informations de base (dates et lieux, profession, parfois quelques indications sur la carrière), et surtout les références bibliographiques de documents imprimés et d’articles présents dans la collection de la bibliothèque.

Ce fichier a été transformé au début de notre siècle en une base de données informatique, sur le même modèle.

Complexification

Puis, peu à peu, grâce aux possibilités offertes par l’informatique, des données assez diverses se sont agglomérées autour de ce noyau principal de références bibliographiques (qui continuait à se développer).

Aux noms des personnes présentes ont été liés les portraits numérisés dans la Banque d’images et de portraits.

On a signalé également des portraits qui n’ont pas fait l’objet d’une numérisation (souvent pour des raisons de droit de propriété intellectuelle), mais qui existent dans la collection.

On y a adjoint, grâce à la coopération de la bibliothèque de l’Académie de médecine, les appartenances à cette compagnie (“Membre de l’Académie de médecine”), ou la présence d’un “Dossier à l’Académie de médecine”. On a versé l’intégralité du contenu du Fichier Laborde, un important dépouillement d’archives effectué sous la direction de Léon de Laborde, garde général des Archives de l’Empire à partir de 1857, qui permet notamment de repérer tout un monde de médecins et de chirurgiens du XVIe et du XVIIe siècles.

Des chercheurs,  Pierre Moulinier et Jean-Marie Mouthon, nous ont permis de charger des dépouillements d’archives et des notices biographiques rédigés par eux.

À mesure que les années passaient, la base de données devenait ainsi plus riche, mais aussi plus compliquée, et plus difficile à gérer et à documenter.

Une hétérogénéité inévitable

Pourtant, il était évident que cette complexité allait encore croître : en effet, le développement de la numérisation, à la BIU Santé et dans le monde, rendait indispensable de pouvoir ajouter à la base biographique une très grande diversité de données directement accessibles en ligne et de partout, et non seulement les nécessaires références aux collections imprimées consultables sur place à la bibliothèque.

C’est cette diversité de données que nous essayons de mieux gérer dans notre nouvelle base en ligne.

On trouvera déjà de très nombreux liens entre la base biographique et les ressources biographiques que fournit la bibliothèque numérique Medic@. Des milliers de liens ont été créés, principalement vers des dictionnaires pour l’instant, et vers les précieux “Titres et travaux scientifiques”, ces curriculum-vitae dont la bibliothèque conserve une riche collection largement numérisée. Mais nous verserons prochainement d’autres ressources.

Dans les prochains mois, la base biographique permettra ainsi d’exploiter le considérable fichier manuscrit que la famille de Jacques Léonard a donné à la BIUM lors du décès de ce chercheur en 1988, qui est constitué par le dépouillement de milliers de dossiers d’archives sur des médecins de l’ouest de la France au XIXe siècle.

Nous travaillons également à repérer dans les périodiques que nous avons numérisés les nécrologies innombrables qu’ils contiennent. Si nous en avions les moyens, nous pourrions également nous attaquer à des ressources qui se trouvent dans d’autres bibliothèques numériques ou bases de données en ligne.

Nous serions heureux de nouer de nouvelles collaborations avec des chercheurs ou des institutions, que ce soit pour signaler des ressources distantes ou pour inclure directement de nouvelles biographies rédigées. Le champ est immense, plus grand que nos forces. L’intérêt permanent du public pour la biographie nous semble justifier des efforts importants.

Les utilisateurs verront également que nous avons fait notre possible pour documenter les dépouillements que nous avons effectués. Il est indispensable d’accumuler des données : il est utile aussi de dire d’où elles viennent, et quelles sont les sources qui ont été exploitées (et donc quelles sont celles qui ne l’ont pas été). De plus, certaines de ces ressources – le fichier Laborde déjà nommé par exemple – ont absolument besoin d’être expliquées : la documentation des sources est une nécessité qui est liée à l’hétérogénéité du contenu. Cet effort de documentation nous est d’ailleurs indispensable à nous aussi, pour savoir où nous en sommes et mieux organiser nos dépouillements.

Une base techniquement plus ouverte

Enfin, la base nouvelle manière est plus ouverte, et nous nous efforcerons de l’ouvrir encore davantage dans la prochaine étape technique de son développement.

Ouverture aux moteurs de recherche

Jusque là, la base biographique appartenait au «web caché», comme on dit : on n’en trouvait pas tout le contenu par l’intermédiaire des moteur de recherche du web comme Google. La nouvelle architecture devrait permettre que les moteurs de recherche viennent lire le contenu de la base, et le proposent donc à leurs utilisateurs, c’est-à-dire à nous tous.

Les identifiants d’autorité à l’horizon

Notre prochaine étape technique, dans la mesure de nos forces, sera de lier nos données avec d’autres jeux de données disponibles, plus précisément d’abord avec ce que les professionnels de la documentation appellent les «données d’autorité».

Les données d’autorité répondent d’abord à un besoin pratique de gestion des collections, en différenciant les homonymes dans les catalogues, ou en liant entre eux les différents noms d’une même personne ; ainsi on peut indiquer quel est le Jean Durand qui a écrit un certain livre (qui n’est pas le Jean Durand qui a écrit tel autre livre) ; et on peut fournir, à celui qui cherche les ouvrages de Jacobus Sylvius, ceux qui sont notés sous le nom de Jacques Dubois.

Mais l’informatique a donné un rôle accru à ces données d’autorité et aux numéros d’identification qui les accompagnent : si vous savez quel est le numéro qui désigne une personne, vous avez en principe la possibilité de joindre ensemble toutes les informations qui contiennent ce numéro d’identification. Par exemple, si vous savez que Sigismond Jaccoud a un identifiant 64023688  dans la base de données internationale VIAF, vous pouvez récupérer les informations qui s’y trouvent liées parce qu’elles utilisent également cet identifiant, notamment les diverses pages Wikipedia (https://en.wikipedia.org/wiki/Sigismond_Jaccoud, https://fr.wikipedia.org/wiki/Sigismond_Jaccoud, etc.), les données de Worldcat Identities, mais aussi les données bibliographiques qui concernent Jaccoud dans les catalogues de bibliothèques, etc. Ce numéro pourrait permettre aussi, en principe, que d’autres outils informatiques viennent à leur tour puiser dans la Base biographique.

L’usage de ces identifiants devrait se développer dans les temps qui viennent : nous espérons que la base biographique est aujourd’hui mieux préparée à s’intégrer dans le paysage documentaire qui se met en place. Le chemin, il faut le dire, est encore un peu long pour nous, mais l’essentiel est de pouvoir le commencer.

Nous comptons sur les utilisateurs pour nous signaler les défauts qu’ils trouveront, et nous faisons appel à leur indulgence critique.

Jean-François Vincent
24 mai 2018