Utilisation des fichiers OCR par Gallica
DIVERS
+ DE 2 ANS
Le 12/05/2017 à 13h55
583 vues
Question d'origine :
Je souhaiterais savoir depuis quelle année Gallica utilise les OCR et comment ces derniers sont arrivés dans le monde des bibliothèques.
Je vous remercie.
Réponse du Guichet
gds_et
- Département : Équipe du Guichet du Savoir
Le 15/05/2017 à 14h10
Bonjour,
D’après les informations que nous trouvons, la recherche plein texte permise par l’OCR est disponible depuis 2007 dans Gallica :
« En France, la première réalisation d’ampleur a été le projet Gallica, lancé dans le cadre de la nouvelle Bibliothèque nationale de France. Un programme de numérisation initié en 1992 a conduit à l’ouverture du site en 1997, pour « constituer la bibliothèque virtuelle de l’honnête homme ». Le contenu était composé d’ouvrages choisis titre à titre afin de constituer des corpus, tels les voyages et explorations autour du monde. Ont également débuté la numérisation de la presse quotidienne française et celle de publications de sociétés savantes. La plupart des documents étaient numérisés uniquement en mode image, ce qui ne permettait pas la recherche plein texte. La BnF s’est ensuite engagée en 2007 dans un programme de numérisation de masse, à la suite de l’appel en 2005 de son président, Jean-Noël Jeanneney, à résister aux ambitions en Europe de Google. Ce programme bénéficie d’un soutien du Centre national du livre, à hauteur de 3 M€ puis 6 M€ par an et a conduit à l’ajout systématique du mode texte avec reconnaissance optique de caractères (OCR) facilitant la recherche. »
Source : Les bibliothèques, Pierre Carbone
« […] le Sénat apporte son concours à la réalisation de ce plan de numérisation par son soutien financier. Une dotation de 0,15 million d’euros, reconduite pendant trois ans (soit la période 2005-2007) a ainsi bénéficié à la bibliothèque. Cette enveloppe totale de 0,45 million d’euros permettra de financer les traitements liés à la reconnaissance optique de caractères (OCR : Optical Caracter Recognition). »
Source : La numérisation de la presse rétrospective à la BnF, Prémel, Benjamin, Le Temps des médias, vol. 8, no. 1, 2007, pp. 267-278.
« La période 2007-2009 a vu la mise en œuvre de la numérisation de masse en réaction à l’initiative de Google et le choix de la reconnaissance optique de caractères (OCR) pour une recherche au cœur des textes. Gallica s’est d’abord rapidement étoffée par la numérisation des livres et revues (2007), puis des collections spécialisées (2009) de la BnF. »
Source : Gallica (1997 – 2016), Bertrand, Sophie et Girard, Aline, Bulletin des bibliothèques de France (BBF), 2016, n° 9, p. 48-59.
« En mars 2007, à l’occasion du Salon du livre, était présenté au public le site Europeana, contribution française à la bibliothèque numérique européenne. Cette première réalisation faisant suite à l’appel de Jean-Noël Jeanneney et à la lettre de mission reçue par la BnF est un prototype visant à servir de laboratoire pour l’expérimentation de nouvelles fonctionnalités de bibliothèque numérique, notamment la recherche plein texte. Ainsi, outre les métadonnées en Dublin Core de 12 000 ouvrages issus des collections de la Bibliothèque nationale de France, de la Bibliothèque Nationale Széchényi de Hongrie (Országos Széchényi Könyvtár) et de la Bibliothèque nationale du Portugal (Biblioteca Nacional de Portugal), Europeana donne accès en interrogation et consultation plein texte à quelque 7 000 documents de la BnF, sélectionnés dans Gallica pour leur intérêt documentaire et convertis en mode texte par OCR dans le cadre d’un marché spécifique. »
Source : [url]Les moteurs de recherche[/url], Bermès, Emmanuelle, Bulletin des bibliothèques de France (BBF), 2007, n° 6, p. 5-10.
« The second stage of BNF’s digitization programme is the current conversion of the original product in image mode to a digital collection accessible in text mode after OCR treatment. It concerns some 60 000 volumes. This stage should be achieved in 2007. »
Source : Newspapers collection management: printed and digital challenges: Proceedings of the International Newspaper Conference, Santiago de Chile, April 3-5, 2007, Hartmut Walravens
Pour en savoir plus, sachez que vous pouvez contacter directement les bibliothécaires de la BnF via le service SINDBAD.
Vous trouverez également d’autres informations sur les techniques de numérisation de Gallica dans les pages suivantes :
- Recherche et développement de la BnF en numérisation patrimoniale, bnf.fr
- La numérisation à la BnF, bnf.fr
Pour terminer, nous vous proposons quelques références qui vous permettront d’approfondir la question de la numérisation en bibliothèque :
- Stratégies numériques : numérisation et exploitation du patrimoine écrit et iconographique, Emmanuelle Chevry
- Numérisation du patrimoine : quelles médiations ? quels accès ? quelles cultures ? sous la direction de Bernadette Dufrêne, Madjid Ihadjadene, Denis Bruckmann
- Bibliothèques et politiques documentaires à l'heure d'Internet, Bertrand Calenge
- Pérenniser le document numérique, Séminaire INRIA, 2-6 octobre 2006, Amboise; ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet
Bonne journée.
D’après les informations que nous trouvons, la recherche plein texte permise par l’OCR est disponible depuis 2007 dans Gallica :
« En France, la première réalisation d’ampleur a été le projet Gallica, lancé dans le cadre de la nouvelle Bibliothèque nationale de France. Un programme de numérisation initié en 1992 a conduit à l’ouverture du site en 1997, pour « constituer la bibliothèque virtuelle de l’honnête homme ». Le contenu était composé d’ouvrages choisis titre à titre afin de constituer des corpus, tels les voyages et explorations autour du monde. Ont également débuté la numérisation de la presse quotidienne française et celle de publications de sociétés savantes. La plupart des documents étaient numérisés uniquement en mode image, ce qui ne permettait pas la recherche plein texte. La BnF s’est ensuite engagée en 2007 dans un programme de numérisation de masse, à la suite de l’appel en 2005 de son président, Jean-Noël Jeanneney, à résister aux ambitions en Europe de Google. Ce programme bénéficie d’un soutien du Centre national du livre, à hauteur de 3 M€ puis 6 M€ par an et a conduit à l’ajout systématique du mode texte avec reconnaissance optique de caractères (OCR) facilitant la recherche. »
Source : Les bibliothèques, Pierre Carbone
« […] le Sénat apporte son concours à la réalisation de ce plan de numérisation par son soutien financier. Une dotation de 0,15 million d’euros, reconduite pendant trois ans (soit la période 2005-2007) a ainsi bénéficié à la bibliothèque. Cette enveloppe totale de 0,45 million d’euros permettra de financer les traitements liés à la reconnaissance optique de caractères (OCR : Optical Caracter Recognition). »
Source : La numérisation de la presse rétrospective à la BnF, Prémel, Benjamin, Le Temps des médias, vol. 8, no. 1, 2007, pp. 267-278.
« La période 2007-2009 a vu la mise en œuvre de la numérisation de masse en réaction à l’initiative de Google et le choix de la reconnaissance optique de caractères (OCR) pour une recherche au cœur des textes. Gallica s’est d’abord rapidement étoffée par la numérisation des livres et revues (2007), puis des collections spécialisées (2009) de la BnF. »
Source : Gallica (1997 – 2016), Bertrand, Sophie et Girard, Aline, Bulletin des bibliothèques de France (BBF), 2016, n° 9, p. 48-59.
« En mars 2007, à l’occasion du Salon du livre, était présenté au public le site Europeana, contribution française à la bibliothèque numérique européenne. Cette première réalisation faisant suite à l’appel de Jean-Noël Jeanneney et à la lettre de mission reçue par la BnF est un prototype visant à servir de laboratoire pour l’expérimentation de nouvelles fonctionnalités de bibliothèque numérique, notamment la recherche plein texte. Ainsi, outre les métadonnées en Dublin Core de 12 000 ouvrages issus des collections de la Bibliothèque nationale de France, de la Bibliothèque Nationale Széchényi de Hongrie (Országos Széchényi Könyvtár) et de la Bibliothèque nationale du Portugal (Biblioteca Nacional de Portugal), Europeana donne accès en interrogation et consultation plein texte à quelque 7 000 documents de la BnF, sélectionnés dans Gallica pour leur intérêt documentaire et convertis en mode texte par OCR dans le cadre d’un marché spécifique. »
Source : [url]Les moteurs de recherche[/url], Bermès, Emmanuelle, Bulletin des bibliothèques de France (BBF), 2007, n° 6, p. 5-10.
« The second stage of BNF’s digitization programme is the current conversion of the original product in image mode to a digital collection accessible in text mode after OCR treatment. It concerns some 60 000 volumes. This stage should be achieved in 2007. »
Source : Newspapers collection management: printed and digital challenges: Proceedings of the International Newspaper Conference, Santiago de Chile, April 3-5, 2007, Hartmut Walravens
Pour en savoir plus, sachez que vous pouvez contacter directement les bibliothécaires de la BnF via le service SINDBAD.
Vous trouverez également d’autres informations sur les techniques de numérisation de Gallica dans les pages suivantes :
- Recherche et développement de la BnF en numérisation patrimoniale, bnf.fr
- La numérisation à la BnF, bnf.fr
Pour terminer, nous vous proposons quelques références qui vous permettront d’approfondir la question de la numérisation en bibliothèque :
- Stratégies numériques : numérisation et exploitation du patrimoine écrit et iconographique, Emmanuelle Chevry
- Numérisation du patrimoine : quelles médiations ? quels accès ? quelles cultures ? sous la direction de Bernadette Dufrêne, Madjid Ihadjadene, Denis Bruckmann
- Bibliothèques et politiques documentaires à l'heure d'Internet, Bertrand Calenge
- Pérenniser le document numérique, Séminaire INRIA, 2-6 octobre 2006, Amboise; ouvrage coordonné par Lisette Calderan, Bernard Hidoine et Jacques Millet
Bonne journée.
DANS NOS COLLECTIONS :
Commentaires 0
Connectez-vous pour pouvoir commenter.
Se connecter