Aspects techniques de la collecte et du traitement - PowerPoint PPT Presentation

1 / 13
About This Presentation
Title:

Aspects techniques de la collecte et du traitement

Description:

collecte automatique de tout le web ' national ' Les biblioth ques ... Les acteurs de l 'archivage du web. Communaut s d'auteurs et de chercheurs, associations ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 14
Provided by: DCO118
Category:

less

Transcript and Presenter's Notes

Title: Aspects techniques de la collecte et du traitement


1
Le dépôt légal des ressources en ligne
F
  • Aspects techniques de la collecte et du traitement

2
Archivage du web dans les bibliothèques
  • Deux approches
  • collecte et sélection dun nombre limité de sites
  • collecte automatique de tout le web  national 
  • Les bibliothèques nationales ont commencé à
    expérimenter en 1996
  • http//www.bnf.fr/pages/infopro/dli_ECDL2001.htm
  • A la BnF 1999? , archivage de sites et
    participation à NEDLIB (Networked Deposit
    Libraries)

3
Kulturarw3 web suédois
  • DL suédois
  • depuis 1661
  • 1993. Documents électroniques sur support
  • Archivage de tout le web suédois, été 1996?
  • tout automatique. Robot Combine qui parcourt les
    liens
  • 4 snapshots par an
  • Traitement et accès (réservé projet)
  • pas de catalogage, indexation des sites texte
    intégral
  • navigation web dans larchive pour chaque
    snapshot
  • Archive (février 2001)
  • 110 M de fichiers, 3 To, 97 000 sites

4
(No Transcript)
5
Pandora Archive, NLA
  • Archivage sélectif de sites
  • http//pandora.nla.gov.au/selectionguidelines.html
  • Ressources uniquement en ligne et fréquence,
    ressource aussi sur CD-ROM, pas ressource aussi
    sur support analogique
  • Australie, événements, publications faisant
    autorité (Universitaires), publications
    innovantes, périodiques
  • Traitement et préservation
  • Catalogage de sites ou décomposition du site en
    portions
  • Pas de conservation des liens externes à l unité
    bibliographique
  • Accès via le service Pandora
  • Préservation à long terme identifiant pérenne
  • http//www.nla.gov.au/padi/

6
(No Transcript)
7
Approche sélective
  • Avantages
  • Gestion similaire au DL sur support
  • Déterminer la fréquence darchivage
  • Catalogage et accès comme les ressources
    numériques sur support ou les ressources
    numérisées
  • Inconvénients
  • Applicable à un petit nombre de sites (3000 sites
    environ 1 du web français
  • Perte de la navigabilité entre les sites

8
Approche snapshot
  • Avantages
  • Meilleure couverture du domaine web cible qui
    représente mieux la mémorisation patrimoniale
  • Larchive complète est navigable horizontalement
    dans un snapshot et verticalement dans
    l historique des snapshots
  • Inconvénients
  • Périodicité globale insuffisante pour un vrai
    suivi des mises à jour des sites
  • Une partie du Web est inaccessible aux robots
    sélection de fait
  • Conclusion pour tous les deux approches sont
    complémentaires et nécessaires

9
Expérimentation BnF
  • Adaptation dun robot aux besoins d archivage
    patrimonial
  • Faire une cartographie différenciée des sites en
    fonction de critères en cours de test et
    validation, utiliser l information pour piloter
    la collecte automatique
  • Utiliser la notoriété, les mots rares, des outils
    de suivi de modifications. Vérifier comment
    appliquer les paramètres dans les différents
    domaines des connaissances
  • Faire une notification des parties inaccessibles
    du Web
  • Suivi détaillé des sites 130 sites choisis, 65
    ont donné leur accord, 29 ont signé la
    convention, 4 ont déjà effectué un dépôt

10
Complémentarité des approches
  • Web
  • Deep Web

11
Le web français
  • Le .fr estimation
  • 10 millions de pages
  • 147 843 domaines (AFNIC) dont 1/3 indexés par les
    robots
  • avec .org, .com, .net sans doute le double
  • Web francophone estimation
  • entre 26 M et 56 M de pages selon différents
    robots
  • Le volume à traiter peut être estimé à un volume
    situé entre 1 et 5 To pour un snapshot complet

12
Les acteurs de l archivage du web
  • Communautés dauteurs et de chercheurs,
    associations
  • Physiciens pre-print Los Alamos
  • Internet archive et le Wayback Machine
  • Editeurs de sites eux-mêmes et notamment les
    éditeurs STM. Elsevier, Springer, AIP
  • Les institutions de mémoire
  • Les bibliothèques nationales seules ou en
    coopération sur les contenus et/ou la durée de
    conservation
  • Volonté des bibliothèques nationales
    dinterconnecter les archives de chaque pays pour
    reconstituer la navigabilité globale

13
Conclusion
  • Expérimentation sur la collecte et le traitement
    pour préparer le décret dapplication qui
    accompagnera lévolution de la loi sur le DL
  • Les aspects de stockage et daccès sont traités
    dans le cadre global de l ensemble des
    ressources numériques de la BnF acquisitions,
    DL sur support, numérisation
Write a Comment
User Comments (0)
About PowerShow.com