Overblog
Suivre ce blog Administration + Créer mon blog
9 octobre 2010 6 09 /10 /octobre /2010 14:21

On nous annonce le 7 octobre un partenariat entre BnF et Microsoft (son moteur de recherche Bing) : Bing indexera mieux les contenus de Gallica, dont « la visibilité sera fortement améliorée » (BnF). J’ai fait un peu de recherche documentaire, sans succès, pour comprendre en quoi consiste précisément cet accord, en dehors de l’effet de communication. En effet, il est normal qu’un moteur de recherches indexe Gallica : que veut dire indexer mieux – notion ayant fait l’objet d’un « long travail » (Microsoft) entre les équipes des deux entités ?

 

Et des sites pourtant investigateurs, comme ZDNet, Actualitté, ENSSIB (cette dernière se contente de relayer l’article du Figaro), de reprendre sans commentaires l’information, et sans détails sur la question posée plus haut. ZDNet est même dans le sensationnel en titrant que « Microsoft dame le pion à Google » ! J’ai dû faire une recherche avancée Google pour trouver l’info sur le site de la BnF, mais n'ai trouvé que le même communiqué concocté par les deux entités, bien caché ici en PDF. Quelques bloggeurs (C. Catarina) ont eu la même réaction que moi en essayant d’approfondir cette information bâclée, sinon purement communicationnelle.

 

Il était de notoriété publique, en 2005, que les contenus Gallica étaient mal indexés par les moteurs de recherche en général. Pas seulement parce qu’ils étaient en mode image. Même les descriptions, en mode texte, sont mal indexées – pourquoi le « Web profond est-il mal indexé par les moteurs de recherche » ? (Libération). Est-ce parce que le site Gallica est mal conçu ? Si quelqu’un sait pourquoi je suis preneur d’une explication.

 

Une question se pose immédiatement à la suite. S’il existe des méthodes nécessaires pour que le contenu Gallica soit mieux indexé par un moteur, méthodes que Microsoft va mettre en œuvre en liaison avec la BnF (et qui ont nécessité « un long travail »), qu’attend la BnF pour faire le même travail avec Google, moteur utilisé par 95% de nos concitoyens ? N’est-ce pas le minimum qu’on attend du service public que les contenus Gallica, numérisés à grand renfort d’argent public (taxe CNL sur les photocopieurs, Grand Emprunt,…) soient indexés correctement et puissent être trouvés via les moteurs de recherche courants (Google bien avant Bing) ? On sait qu’à la différence de ceux de Gallica, les contenus de Google Books sont très bien indexés par Google (exemple).

 

Par ailleurs, le communiqué officiel prend le soin de nous expliquer que cet accord ne porte « que sur les contenus libres de droits ». Le mystère s’épaissit ! Ainsi les autres contenus en ligne ne devraient pas être indexés ! Quand on met quelque chose sur Internet, c’est bien pour que les internautes y accèdent ! L’indexation des contenus, qui n’est jamais qu’une aide à la recherche, et qui est la tâche immémoriale des bibliothécaires, deviendrait ainsi une faveur spéciale, soit de la part de l’offreur de contenus (BnF accepte que certains de ses contenus soient indexés, mais pas d’autres), soit de la part de l’offreur et du moteur (un partenariat BnF-Microsoft est nécessaire pour assurer l’indexation !). J’ai déjà dit le curieux mélange des genres public-privé, aux frais du contribuable, que constitue la numérisation par la BnF des ouvrages sous droits d’éditeurs (voir les 4200 ouvrages Gallimard sur Gallica) : et en plus ces ouvrages ne seraient pas indexables. Pour quelle raison ? Quel intérêt y a-t-il à les mettre en ligne alors ?

 

Le comble est à la fin du communiqué, quand on lit que « l’accord prendra effet dans les tout prochains mois dans le cadre du lancement de Bing en France (actuellement en version bêta) »…Soit le process technique nécessaire à cet accord est en effet complexe et long à mettre en œuvre (il faut du boulot pour indexer correctement Galica !), soit tout simplement il faut attendre le lancement en grande fanfare de Bing. La BnF offrant une feature pour le lancement prochain de Bing – lui faisant en quelque sorte la courte échelle : un accord bing-bling ?

 

En résumé mes questions aux auteurs de ce partenariat, aux journalistes qui ne se contenteraient pas de la vulgate officielle, aux lecteurs professionnels de mon blog sont :

1°) les contenus Gallica sont-ils à ce point aussi difficilement indexables de manière automatique qu’il est nécessaire de faire un partenariat pour cela ?

2°) dans ce cas, qu’attend-on pour faire le même partenariat avec le moteur Google, beaucoup plus utilisé que le moteur de Microsoft ?

 

J’ai ma petite idée sur non pas sur la réponse précise à ces questions (sinon je ne les poserais pas), mais sur la trame sous-jacente. En France tout est guidé par le droit d’auteur et le lobby des éditeurs (HADOPI, etc.). L’alliance curieuse entre un gouvernement de droite ayant choisi de défendre ces priorités et une intelligentsia de gauche ayant jeté pour diverses raisons l’anathème sur Google (ici ou ) – cocktail détonant assez bien symbolisé par notre ministre de la Culture actuel –, influence la stratégie des acteurs publics : on en arrive à de tels accords BnF/ Microsoft qui se font sans considération aucune des besoins de l’internaute – et de nos concitoyens en général. C’est une hypothèse de travail que j’étudie et sur laquelle vos avis sont là aussi les bienvenus.

Partager cet article
Repost0
18 mars 2010 4 18 /03 /mars /2010 10:17

J’ai rédigé en novembre dernier un article « Bibliothèque numérique : Google face à l’Europe » qui vient de paraître dans La Jaune et la Rouge (revue des anciens élèves de Polytechnique), mars 2010, n°653 consacré au Livre et Internet. Cet article m’avait été demandé par Pierre Laszlo, coordinateur du numéro (par ailleurs chimiste, auteur scientifique, et auteur BibNum).

Vous trouverez cet article en ligne ici, mais pour ceux qui n’auraient pas la possibilité de le lire entièrement, voici les quelques idées que j’y développe, toujours les mêmes depuis mon rapport remis il y a quatre ans et qui ouvrent ce blog, ainsi que dans mon article du Monde des Livres de 2007 (il faut croire qu’elles commencent à percoler puisque le récent livre de B. Racine, président de la BnF, va dans le même sens sur un certain nombre d’entre elles) :

1)  la BnUE (bibliothèque numérique européenne, ou Europeana), lancée en fanfare il y a cinq ans, n’atteint pas son objectif d’être une alternative à Google.

2)  D’un point de vue politique, ceci amène le citoyen à s’interroger sur le battage politique et médiatique au plus haut niveau (président Chirac à l’époque) et la réalité des maigres résultats ; il en va de même des programmes européens, coûteux et ralliant une audience limitée.

3) Europeana se limite d’ailleurs à un portail de recherche de documents multimedia (livres, manuscrits, photos, vidéos,…), renvoyant vers les sites des bibliothèques nationales (surtout Gallica d’ailleurs).

4) À l’opposé, Google Books est un site sobre, avec des livres uniquement consultables sur le site -même : une bibliothèque numérique effective.

5) Faisons la différence, rarement faite dans les medias, entre le programme Google de numérisation des livres « patrimoniaux » (qui ne sont plus sous droit) et la numérisation des livres sous droits, qui suscite à juste titre l’ire des éditeurs dans le monde.

6) À propos des éditeurs, l’économie mixte à la française à conduit à créer un appendice dans Gallica, difficlement visible et compréhensible, affichant des livres sous droits, avec des visualisations différentes suivant l’éditeur (Gallimard, etc.) – programme financé sur fonds publics (augmentation de la taxe sur les imprimantes-scanners gérée par le CNL).

7) Par comparaison, en Allemagne, dès 2005 les éditeurs se sont groupés entre eux pour faire une bibliothèque numérique Libreka.

8) Le mythique « patrimoine européen » spécifique à Europeana a fait long feu : car ce qui est dans les bibliothèques américaines, et que numérise Google, c’est justement le patrimoine allemand, anglais, français…le patrimoine de l’émigration qui a fait les Etats-Unis.

9)  D’ailleurs, en Europe, les bibliothèques nationales (sur lesquelles s’appuie Europeana) sont un patchwork d’institutions disparate : puissantes en France (BnF) et au Royaume-Uni (BNL), elles sont nettement moins visibles dans des pays d’unification récente comme l’Allemagne ou l’Italie.

10) Avant de s’engouffrer dans une bibliothèque européenne (lisez-vous souvent des livres du XIXe s. écrits en hongrois ?), il eut été utile de monter une bibliothèque numérique francophone – capitalisant sur l’avance qu’avait depuis 2005 la BnF avec Gallica.

11) La diabolisation de l’utilisation de Google, comme celle de Wikipedia, est le signe d’un manque de confiance en l’internaute : celui-ci est, à mon sens, capable de démêler le bon grain de l’ivraie, d’effectuer un travail de recherche (avec un moteur éponyme) ; cette diabolisation émane d’une génération qui, n’ayant pas toujours compris ses usages, voit en Internet surtout ses dangers.

12) Bravo le page ranking du moteur Google s’il me permet de trouver sur Google Books, en deuxième résultat de ma recherche, le livre que je cherche ; on n’a à mon avis pas fini de réfléchir sur cette synergie entre le moteur grand public et Google Books.

13) En 2006, on aurait déjà pu décider que les bibliothèques négocient ensemble avec Google et non en ordre dispersé (idée figurant dans mon rapport BnUE, ainsi que dans le discours Darnton à la BnF en novembre dernier).

14) La foire à la quantité numérisée continue : la BnF nous annonce un millions d’œuvres en ligne – dont 700 000 revues et journaux (j’ignore dans ce cas quelle est l’unité de compte) – en fait il n’y a que 150 000 livres (doublement de Gallica en cinq ans)

15) Question iconoclaste (mais qui se pose à présent) : pourquoi, maintenant, numériserait-on sur fonds publics un ouvrage français qu’on peut déjà trouver sur Google Books ? Quel intérêt ?

16) Question iconoclaste, bis (qui se pose à présent, bis) : quel intérêt aurait Google, maintenant, à aller numériser avec la BnF ou d’autres des ouvrages francophones déjà présent sur Google Books ?

17) L’invocation de programmes franco-allemands pour la numérisation, sorte d’ersatz de programmes européens, m’inquiète quand on connaît le rapport coût/résultat pour le grand public de tels programmes, comme Quaero (Quaerebam comme je l’avais appelé). Idem pour l’invocation au grand emprunt, sauf à mieux définir les objectifs qu'en 2005.

18) Enfin, last but not least, ce n’est pas faute de le mentionner à chaque fois, le dépôt légal sous format numérique n’est toujours pas obligatoire légalement, pour ne pas brusquer les éditeurs. Or les fichiers se perdent, chez les éditeurs, chez les imprimeurs – ces maisons ont souvent un fonctionnement artisanal. Que dirons nos petits-enfants quand ils verront que nous glosions sur une bibliothèque numérique, sans même préparer la leur avec nos livres actuels qui ne seront plus sous droits dans 70 à 100 ans ?

 Image-Twelwe-South.JPG

Voilà, désolé de ce billet un peu long – je n’aime pas les longs billets de blogs, mais j’ai ainsi reclassé mes idées (sachant que dans l’article en question que j’ai écrit, j’ai dû à la demande de la revue faire des encadrés hors texte qui coupent un peu le propos). Merci au blog affordance de m’avoir fait connaître la photo ci-dessus qui est un clin d'oeil.

Partager cet article
Repost0
21 février 2010 7 21 /02 /février /2010 20:01
Vous est-il arrivé de devoir passer d'une bibliothèque numérique à l'autre, aucune ne donnant à tous les coups entière satisfaction ? Je vous donne un exemple. Vous cherchez sur Gallica (ancienne version ou nouvelle version, puisque les deux coexistent... vous arrivez à Gallica ancienne version par le catalogue Opale de la BnF, et à la nouvelle version en tapant Gallica dans un moteur de recherche). Vous trouvez le document qui vous intéresse - malheureusement, comme 90% des documents de Gallica, il n'a pas encore été (re)numérisé en plein texte - donc vous n'arrivez pas à trouver le passage qui vous intéresse dans un livre de 600 pages - même la table des matières n'est pas suffisamment précise. Vous allez sur Google Books, vous trouvez le document indexé en plein texte - malheureusement le livre n'est visible que par "snippets" - par extraits de phrases. Néanmoins vous trouvez le passage qui vous intéresse, vous relevez le numéro de page, et vous revenez sur Gallica pour consulter la page entière ! C'est beau et harmonisé le monde des bibliothèques numériques !

alttab-key.jpg
Partager cet article
Repost0
29 octobre 2009 4 29 /10 /octobre /2009 14:11
Après avoir remarqué certains défauts de numérisation chez Google Books (billet précédent), je fais bonne mesure en remarquant qu'un an après le crash d'ouverture de Europeana, le sytème informatique ne paraît toujours pas au point. Voici trois écrans d'erreur différents que j'ai captés aujourd'hui sur le site :

"Le nouveau système informatique d'Europeana est actuellement en phase de test. Le site est accessible à la consultation. Toutefois, l'utilisation peut e pas être optimale durant cette période (par exemple le nombre d'utilisateurs restera limité en période de pointe)."


Ou : "Veuillez nous excuser pour cette interruption de service momentanée. SARA Consulting Network Services, hébergeur d'Europeana, effectue la maintenance de son réseau de 18:00 à 21:00, heure normale d'Europe Centrale, le 11 septembre 2009" (la date est particulièrement mal choisie pour un crash informatique qui semble permanent)

quand ce n'est pas carrément :

Partager cet article
Repost0
8 septembre 2009 2 08 /09 /septembre /2009 22:14
Je n'approuve pas ceux qui critiquent Google Books par principe, j'ai déjà eu l'occasion de le dire dans ce blog et dans divers articles. Les récents psychodrames BnF/Google sont d'un intérêt limité, et il y aurait beaucoup àécrire sur la façon dont Google Books est déjà beaucoup utilisé comme outil dans de nombreux milieux documentaires ou universitaires, voire dans le grand public.

Mais quand je vois il y a un défaut, mentionnons-le. La numérisation automatique sur machine à numériser a ses inconvénients. Comme me le faisait remarquer un des auteurs BibNum suite à son article commentant la thèse de Foucault (1853) sur les vitesses de la lumière dans l'air et dans l'eau, la numérisation Google Books de ce document possède une grave défaut : la planche de figures n'est pas dépliée, ce qui fait qu'on ne voit pas toutes les figures et qu'on ne peut absolument pas comprendre le document.
Nous avions fait notre propre numérisation pour ce document (lien vers planche Google, image ci-dessous).
Partager cet article
Repost0
28 février 2009 6 28 /02 /février /2009 10:25
La Bibliothèque royale de Belgique vient d'ouvrir sa bibliothèque numérique. C'est une bibliothèque tous documents (journaux, imprimés, cartes, dessins, médailles...). Elle semble compter à l'ouverture un nombre limité de documents : 2900 pour le XIX°s, 145 pour le XX°s, 320 pour le XVIII°s, etc.

Le mieux pour explorer les bibliothèques avec peu de documents (en effet on ne sait pas qui chercher, des recherches de type "Proust" ou "Poincaré" ne donnent aucun résultat) est d'aller sur la page "recherche avancée" et de cocher une des cases. A cet ednroit-là, on trouve principalement des médailles et des cartes, (1500 cartes et 3500 médailles d'après le compteur), très peu d'imprimés (120 donne la recherche).

Les visualisations sont très diverses : directes pour les médailles, dans une visionneuse après un click sur une URL donnée pour les cartes (exemple); pour les imprimés, ceci paraît plus compliqué, il semblerait que l'on soit renvoyé vers des sites externes en frame dans le site KBR - et l'accès au document est problématique. Essayez (cocher "imprimés" à droite), vous aurez peut-être plus de chance que moi, n'hésitez pas à mettre vos conclusions en commentaires.


Les conditions de droits sont intéressantes, on trouve le paragraphe suivant : "La reproduction des documents mis à disposition dans ‘Belgica’ est autorisée à des fins de recherche, d'enseignement ou à usage privé, sous quelle que forme que ce soit, à l’exception de la publication sur internet." Ceci signifie qu'un document ne peut être mis sur Internet même si le site est à usage pédagogique.
Partager cet article
Repost0
17 février 2009 2 17 /02 /février /2009 16:48

A l'occasion de la mise en ligne récente sur BibNum du texte de Lambert (1761) sur l'irrationalité de Π (et de son analyse par Alain Juhel), nous portons à votre connaissance l'existence de la bibliothèque numérique de l'Académie des sciences de Berlin.

Vous pouvez vous rendre sur la page de présentation des ouvrages numérisés, et trouverez de nombreux périodiques en français, de 1745 à 1804, dont "Histoire de l'Académie Royale des Sciences et des Belles-Lettres de Berlin".

Saluons ainsi l'amorce d'une bibliothèque numérique scientifique européenne... sachant qu'à cette époque la langue de la science était plutôt le français, voire encore le latin !

Partager cet article
Repost0
10 décembre 2008 3 10 /12 /décembre /2008 10:22

Difficile de faire entendre sa voix, sa voie, dans le concert de louanges autour d'Europeana. Le plus décalé - compte tenu du fait qu'on ne pouvait voir le site - était la gargarisation autour du nom Europeana, qui aurait été donné par la France en remplacement de TEL The European Library, nom anglo-saxon, horresco referens ! (ce commentaire était d'ailleurs erronné puisque TEL existe toujours, allez comprendre, c'est un site que vous pouvez aller voir, qui lui n'est pas saturé)
Difficile en effet d'écrire quoi que ce soit de sérieux quand on n'a pas pu voir le portail Europeana, ce qui est mon cas ! J'ai retenu toutefois, des commentaires de ceux qui l'ont vu (?), que c'était avant tout une médiathèque, peut-être à thèmes, et sans doute un portail... à confirmer le 15 décembre.
Certaines voix se sont levées (je retrouverai les URLs) pour s'étonner que tout benoîtement, on puisse indiquer sur un site public financé à grands frais "Nous serons de retour le 15 décembre", soit 25 jours plus tard...J'ai lu un commentaire selon lequel, dans un cas pareil, toute l'équipe de développement et les sous-traitants étaient remerciés sur-le-champ. Rendons grâce à l'INA et à l'IGN, lors du lancement respectif de leurs super-sites (Vidéothèque et Géoportail), d'avoir, même s'ils croulaient sous les connexions, tout fait pour rétablir le service 3-4 jours plus tard... Il n'y pas eu cette vélléité semble-til chez Europeana.
François Lambel dans Le Monde Informatique a eu le 27 novembre des mots justes sous le titre "Dissection d'une coquille vide fermée pour travaux" - égratignant au passage Le Monde (mais ces journaux ne sont pas dans le même groupe) qui qualifiait Europeana de "point d'orgue culturel de la présidence française de l'Union européenne" ! Il pose une vraie question : qui fera les comptes pour le contribuable européen ? Dans l'orbite des médias culturels, néanmoins, aucune voix dissonnante, me semble-t-il, sur le sujet d'Europeana.


En attendant d'affiner mon jugement, je réfléchis actuellement sur deux pistes (et vous pouvez le faire aussi si ce sujet vous intéresse) :
1) la première est de cerner la différence entre Michaël et Europeana : lors du colloque PFUE "Numérisation du patrimoine culturel" au musée du quai Branly les 27 & 28 novembre, auquel j'ai participé en partie, j'ai été frappé de la ressemblance entre ces deux projets : européens, tous documents, portails, multilinguisme... la différence étant que Michaël marche, existe depuis plus longtemps, est moins connu (télécharger la présentation de Michaël lors de ce colloque, 20Mo). Lambel n'a pas tort quand il écrit qu'Europeana est une multitude de projets européens imbriqués. A investiguer. Allez voir Michaël et reparlons-en.


2) une deuxième piste est, pour voir comment tous ces projets évoluent, de créer un marqueur, j'en ai trouvé un, sans doute pas le meilleur. Dans Wikipedia, combien de pages réfèrent-elles à Gallica, à Gallica 2, à Europeana, à Google Books. C'est très sîmple :
- Faire une recherche http://books.google dans la boîte de dialogue "Rechercher" de la page d'accueil Wikipedia. Le résultat est : 10774 résultats.
- Même recherche http://gallica.bnf dans la même boîte de dialogue. Le résultat est : 5918 résultats ; et pour Gallica2, il est : 306 résultats.
Il s'agit là d'une démarche expérimentale, en dehors des discours de circonstance : je ne prétends pas à ce que ce soit la meilleure, ou même qu'elle soit valide. Je tâtonne, comme dans toute démarche scientifique. Votre avis sera précieux (NB: la recherche ci-dessus a été faite le mercredi 10 décembre au soir, son résultat semble être très variable, vous pouvez mettre vos résultats avec cette même recherche en commentaires).

Partager cet article
Repost0
11 novembre 2008 2 11 /11 /novembre /2008 21:59
Nous avons ouvert le site BibNum " Textes fondateurs de la sciencehttp://bibnum.education.fr , avec pour l'instant une quinzaine de textes commentés.
Il s'agit de textes importants de la science (pour l'instant surtout physique et mathématiques, mais à étendre à biologie, sciences humaines, philosophie,...) commentés et analysés par des scientifiques d'aujourd'hui, afin d'expliquer la démarche de l'auteur, la mise en contexte de sa "découverte" et son actualité dans la science de nos jours ou ses applications.
L'histoire des sciences et des techniques est utile pour l'enseignement de la physique et des mathématiques, pour la compréhension de la science mais aussi de la démarche scientifique.
Par ailleurs, ce type de site peut représenter u
ne forme nouvelle, sinon originale, de communication scientifique, intégrée au développement des bibliothèques numériques et au partage des savoirs sur Internet
.

Vous pouvez aussi proposer des textes à commenter, ou proposer de les commenter vous-même (formulaire de contact).
[voir aussi "Qui sommes-nous?", "FAQ", "Recommandations aux auteurs (PDF)"]
Partager cet article
Repost0
22 octobre 2008 3 22 /10 /octobre /2008 08:39
J'avais connu le précédent plan gouvernementale RE/SO 2007 ("Pour une république numérique dans la société de l'information"), avec le train de 71 mesures du Comité interministériel pour la société de l'information de juillet 2003 (voir ici ou ). En cette année 2008, c'est l'annonce de France Numérique 2012, avec ses 154 mesures (PDF). Pour ce qui nous intéresse, à savoir les bibliothèques numériques, nous retiendrons l'action n°40, une "passerelle" entre Gallica qui alimente Europeana d'une part, et le Réseau des bibliothèques numériques francophones d'autre part. Souhaitons que l'internaute ait son fil d'Ariane pour s'y retrouver. Extrait du relevé de décisions, mesure n°40 ci-dessous.

Document "France numérique 2012"

La langue française que nous partageons avec de nombreux pays dans le monde constitue un formidable vecteur d’apprentissage et de promotion de nos contenus. Elle est aussi un vecteur de fertilisation croisée des acteurs francophones agissant dans le domaine de technologies de l’information. Une passerelle francophone pourrait être mise en place pour valoriser notre patrimoine linguistique. Cette passerelle viendrait compléter deux actions déjà engagées par la France, au niveau européen et international : en premier lieu le projet de numérisation Gallica, conçu par la BnF pour contribuer à la bibliothèque numérique européenne Europeana, en second lieu le portail des bibliothèques nationales francophones, piloté par le réseau francophone des bibliothèques nationales numériques et soutenu depuis 2007 par l’Organisation internationale de la Francophonie.

Action n°40 : Mettre en place une “passerelle” francophone agrégateur de contenus en partenariat avec les pays membres de l’Organisation internationale de la Francophonie. Pérenniser le soutien à la politique de numérisation engagée par la BnF en vue de contribuer à la bibliothèque numérique européenne Europeana, ainsi que le portail du réseau francophone des bibliothèques nationales numériques, en promouvoir la visibilité et l’accessibilité, dans un souci d’ouverture et dans le respect du droit d’auteur.

Partager cet article
Repost0

Présentation

  • : Humanités numériques, édition scientifique, diffusion numérique de la connaissance, Enseignement supérieur et recherche, géographie et histoire industrielles (auteur Alexandre Moatti) = ISSN 2554-1137
  • : Discussions sur le projet de Bibliothèque numérique européenne, sur les bibliothèques numériques en général; sur l'édition scientifique papier & en ligne.
  • Contact

Avant-propos

Ce blog est créé à la rentrée scolaire 2006 pour suivre les sujets suivants:
# Bibliothèque numérique européenne (BNUE), et bibliothèques numériques en général.
# Edition et revues scientifiques.
Il est étendu en 2023 sur des sujets connexes aux précédents, mais néanmoins liés : patrimoine industriel, géographie industrielle.

 
Alexandre Moatti
 
 

Recherche