Expertengespräch zur Langfristarchivierung digitaler Publikationen [10.-11.10.1999]

Im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "Langfristarchivierung digitaler Publikationen" veranstaltete die Bayerische Staatsbibliothek in Kooperation mit der Deutschen Bibliothek am 11./12. Oktober in München ein internationales Expertengespräch zu diesem Thema. Ziel des Treffens war es, Verantwortliche aus den Bereichen Bibliotheken, Archive, Rechenzentren mit Vertretern internationaler Projekte und mit einigen Repräsentanten der Industrie zu Diskussion und Erfahrungsaustausch zusammenzubringen. Die ausländischen Gäste gaben zu allen angesprochenen Themen einen Einblick in die Situation bzw. die Initiativen in ihren jeweiligen Heimatländern.

Geladen war aus den USA Nancy Elkington von der Research Libraries Group aus Mountain View in Kalifornien, die die Beschäftigung mit der digitalen Bestandserhaltung zu einem der strategischen Hauptarbeitsfelder der nächsten Jahre erklärt hat.

Außerdem nahm Jeff Rothenberg von der RAND-Corporation aus Santa Monica in Kalifornien am Treffen teil, der als Hauptvertreter des sogenannten Emulationskonzepts, einem Verfahren der digitalen Bestandserhaltung, anzusehen ist.

Aus Großbritannien war Neil Beagrie, der Executive Director vom Arts-and Humanities Data Service (AHDS), gekommen, einer im Rahmen des e-lib-Programms gegründeten Einrichtung, die das Ziel hat, wissenschaftlich relevantes Datenmaterial bzw. Anwendungen aus Projekten und Untersuchungen zu sammeln und für eine langfristige Zugreifbarkeit aufzubereiten und zu sichern.

Hans Jansen von der Koninklijken Bibliotheek aus den Niederlanden, die die Federführung im europäischen Nedlib-Projekt innehat, stellte sowohl die Aktivitäten der KB als auch - unterstützt von Hans Liegmann von Der Deutschen Bibliothek in Frankfurt - den allgemeinen Rahmen der Nedlib-Bemühungen dar.

Im folgenden werden kurze Zusammenfassungen der Einzel-Sitzungen gegeben, um einen Einblick in die Spannbreite der Thematik zu vermitteln. Das Schwergewicht der Veranstaltung lag jedoch in der Diskussion, die nicht einfach wiedergegeben werden kann.

Die Tagung war in folgende thematische Schwerpunkte unterteilt:

  1. Einführung / Überblick: Digitale Archivierung in Bibliotheken und Archiven, Stand und rechtliche Rahmenbedingungen
  2. Technische Verfahren und Methoden der digitalen Langzeitarchivierung
  3. Archivsysteme und Datenformate. Bestehende Technologien für die Langzeitarchivierung
  4. Organisation der Digitalen Archivierung: spezialisierte Datenarchive, die Rolle der Produzenten, die Zukunft der Pflichtbibliotheken
  5. Existierende und geplante Forschungsprojekte

Zu einigen Vorträgen sind weitergehende Literaturhinweise bzw. Internet-Adressen angegeben. Auf eine umfassende Zusammenstellung wurde jedoch verzichtet, da es im WWW bereits eine sehr gut aufbereitete Web-Site zum Thema gibt, die von der National Library of Australia gestaltet und betreut wird: http://www.nla.gov.au/padi/

Eine Zusammenfassung in englischer Sprache ist in den RLG Digi-News Vol.. 3, Number 6 erschienen: http://www.rlg.org/preserv/diginews/diginews3-6.html

[Seitenanfang]


Session 1 Begrüßung und Überblick: Digitale Archivierung in Bibliotheken und Archiven

Begrüßung der Teilnehmer und Erläuterung der Bedeutung der digitalen Langfristarchivierung für große Bibliotheken und Archive

In Deutschland ist aufgrund der föderalen Struktur auch die Pflichtablieferung auf Bundes- und auf Länderebene geregelt. In die Pflichtablieferung eingeschlossen sind auch Publikationen auf Datenträgern. Für Online-Publikationen gibt es noch keine rechtliche Regelung. Die Deutsche Bibliothek hat eine AG Depotbibliothek gegründet, in der zusammen mit Verlagsvertretern Voraussetzungen und Modalitäten für eine Ablieferung diskutiert und erprobt werden sollen. Die Deutsche Bibliothek partizipiert außerdem am NEDLIB-Projekt und kann somit die Erfahrungen und Vorgehensweisen anderer europäischer Staaten nutzen.

Auch im Archivwesen ist die Aufteilung in das für Bundesbehörden zuständige Bundesarchiv (Zentrale in Koblenz) und in einzelne Länderarchive gegeben. Die Archive bekommen ihr Material von den einzelnen Bundes- bzw. Landesbehörden. Die Archive haben das Material zu sichten und zu entscheiden, was letztendlich langfristig archiviert werden soll. Ca. 90% des anfallenden Materials wird nicht archiviert. Der größte Teil der zu archivierenden Dokumente liegt heute noch in Papierform vor, die zunehmende Automatisierung der Verwaltung führt aber auch hier zur Konfrontation mit dem Problem der digitalen Daten. Außerdem erhält das Bundesarchiv die Publikationen der Behörden, die zunehmend in elektronischer Form erscheinen. Hier ist eine Überschneidung mit dem Sammel- und Archivierungsauftrag der Bibliotheken zu konstatieren.

Nancy Elkington stellte die Beschränkungen der aktuellen Situation (nicht klar definierte Zuständigkeiten im kulturellen Bereich, kein nationales Kulturministerium, wenig Möglichkeiten zum Einwerben neuer Fördermittel) den Möglichkeiten gegenüber (Kooperationen verschiedener Partner aus dem kommerziellen und Wissenschaftsbereich, breites technologisches Wissen und entsprechende Erfahrungen). Auf diesem Hintergrund nannte sie die wichtigsten Organisationen und Verbände in den USA für die Thematik (vgl. ergänzend Session 4): Die Research Libraries Group (RLG), die Digital Library Federation (DLF), das Council on Library and Information Resources (CLIR), das Online Computer Library Center (OCLC). Außerdem gibt es verschiedene Forschungsaktivitäten einzelner Bibliotheken und Archive. Derzeit liegt der Schwerpunkt der Forschung auf der Entwicklung von Methoden für verschiedene digitale Objekte (neu digitalisierte Objekte, elektronische Materialien und elektronische Publikationen), auf der Entwicklung von technischen Standards und technischer Infrastruktur, in der Erprobung von Kooperationen zwischen Unternehmen und Ausbildungseinrichtungen. Für all diese Aktivitäten müssen Finanzierungsmöglichkeiten gesucht und gefunden werden.

In Großbritannien gibt es neben den Staatsarchiven und den Pflichtbibliotheken, Verbände für Forschung und höhere Bildung, regionale Archive, Bibliotheken und Museen, sowie weitere Institutionen. In den Staatsarchiven wird z.Zt. das EROS Projekt (Management und Archivierung von elektronischen Dokumenten von Behörden) http://www.pro.uk/recordsmanagement/eros/default.htm sowie das Projekt UKNDA (United Kingdom National Digital Archive (datasets)) (Digitale Archive von Behörden produzierten strukturierten Daten) bearbeitet (http://ndad.ulcc.ac.uk) .Als Pflichtbibliotheken fungieren neben der British Library noch 5 andere Bibliotheken (Cambridge University Library, The Bodleian Library at the Oxford Univerity, The National Libraries of Scotland, The National Library of Wales, Trinity College Library Dublin) http://www.bl.uk/services/ric/diglib/digilib.html .Diese sollen das in digitaler Form in Großbritannien produziertes Material sichern, langfristig archivieren und zugänglich machen. Das wichtigste Projekt für die Langfristarchivierung ist das CEDARS Projekt (Curl Exemplars in Digital ARchiveS) http://www.leeds.ac.uk/cedars/ . Die Verbände für Forschung und höhere Bildung sind im Joint Information Systems Committee (JISC) und in Forschungsverbänden (ESRC, NERC, PPARC) zusammengeschlossen. Unter Federführung von JISC werden mehrere Projekte durchgeführt, die Einrichtung des Arts and Humanities Data Service (AHDS), CEDARS sowie NESLI http://www.nesli.ac.uk/ . Ein weiteres Projekt von JISC und ESRC ist das Data Archive an der Universität Essex http://dawww.essex.ac.uk/ .Die regionalen Archive, Bibliotheken und Museen sind in der Library and Information Commission zusammengeschlossen und betreuen das öffentliche Bibliotheksnetz, daneben gibt es noch die Kulturstiftung durch die öffentliche Lotterie http://www.hatii.arts.gla.ac.uk/HLFICT/ .Die beteiligten Körperschaften sind vor allem das National Preservation Office (NPO) http://www.bl.uk/services/preservation , die Digital Archiving Working Group sowie die Digital Preservation Coalition.

In den Niederlanden gibt es im Gegensatz zu Deutschland kein Gesetz zur Ablieferung von Publikationen der einzelnen Verlage. Sehr viele Verlage schicken jedoch Exemplare auf freiwilliger Basis an die Bibliothek. Es wurden kurz einige Projekte der Koninklijke Bibliotheek vorgestellt, die als Stufen auf dem Weg hin zu einer digitalen Langfristarchivierung anzusehen sind und auch eine Vorarbeit für das europäische NEDLIB-Projekt bildeten. Der Ziel des vorläufig bis Ende 2000 terminierten NEDLIB-Projektes (die Koninklijke Bibliotheek ist der Koordinator dieses europäischen Projektes) ist, einen allgemeinen Rahmen und einige grundlegende Strategien und Werkzeuge für ein Archivierungssystem für elektronische Publikationen zu entwickeln. Die KB hat eine entsprechende Ausschreibung erarbeitet.

[Seitenanfang]


Session 2 Technische Verfahren – Methoden der digitalen Langzeitarchivierung – Emulation, Migration, Rescue

Jeff Rothenberg, der als der Hauptvertreter der "Emulation" als Verfahren der Langzeitarchivierung gilt, stellte die Methoden Emulation und Migration einander gegenüber. Um digitale Dokumente gleich welcher Art lesen bzw. benutzen zu können, ist eine bestimmte Software notwendig. Falls es sich hierbei nicht um die Original-Software handelt, sondern das Dokument bzw. die Anwendung - ein oder mehrmals - in eine neue Umgebung migriert wurde, sind inhaltliche und Funktions-Verluste nicht auszuschließen. In jedem Fall ist das Dokument nach einer Migration nicht mehr in seinem Original-Layout und Funktionszusammenhang rekonstruierbar. Daher sollte für jedes Dokument die jeweilige Original-Software-Applikation betrieben werden. Dies setzt voraus, daß auf zukünftigen Rechnerplattformen, ältere Hardware (inkl. Prozessor, Speicher, Peripherie usw.) emuliert wird, und somit ältere Software wie in der Originalumgebung lauffähig wäre. Gegenüber der Migrationsmethode ergäbe sich als weiterer Vorteil, daß solch ein Emulationsprogramm für jede Rechnergeneration nur einmalig entwickelt werden müßte, dann jedoch alle auf der emulierten Plattform basierenden Software-Programme ohne Migration funktionsfähig wären. Rothenberg führte Beispiele für erfolgreiche und schon funktionierende Emulationsprogramme aus der Industrie, vorwiegend im Bereich der Computerspiele an.
Weiterführende Literatur:


"Ensuring the Longevity of Digital Documents" http://www.clir.org/programs/otheractiv/ensuring.pdf

"Avoiding Technological Quicksand" http://www.clir.org/pubs/reports/rothenberg/contents.html

"Carrying Authentic, Understandable and Usable Digital Records Through Time" http://www.archief.nl/digiduur/final-report.4.pdf

"Metadata to Support Data Quality and Longevity" http://computer.org/conferen/meta96/rothenberg_Paper/ieee.data-quality.html


"Into the Future" http://www.clir.org/programs/otheractiv/intro.html

In diesem Vortrag wurde das Vorgehen und die Schwierigkeiten des Deutschen Rundfunkarchiv (eine Stiftung öffentlichen Rechts und Gemeinschaftseinrichtung der ARD), dargelegt, historische Tondokumente - die zurückreichen bis zum Anfang der Tonaufzeichnungstechnik Ende des vorigen Jahrhunderts - zu digitalisieren und innerhalb eines digitalen Massenspeichersystems zu archivieren. Die Datenbank für Historische Tondokumente (ZWM), eine komplexe DB2-Applikation, die zur Verwaltung und Zugriffssteuerung dient, mit einer Schnittstelle zu einem Massenspeichersystem wurde kurz vorgestellt, ebenso wie die Vorbereitungen zum Aufbau einer Datenbank-Applikation für historische Bilddokumente.

Das Leibniz-Rechenzentrum, das Rechenzentrum der Münchener Universitäten und der Bayerischen Akademie der Wissenschaften, mußte seine Daten von einer UniTree-Plattform auf ein neues Backup und Archivierungssystem migrieren. Die Erfahrungen dieser schwierigen Arbeit (Dauer insgesamt fast 12 Monate) und die Architektur des Nachfolgers, eines ADSM-Systems (Adstar Distributed Storage Manager), wurden kurz dargestellt. Bei ADSM handelt es sich um eine von IBM entwickelte Client-Server-Applikation. Die ankommenden Daten werden bis zu einer Größe von 200 MB auf einem Plattencache zwischengespeichert und durch sogenannte Migrationsläufe von Zeit zu Zeit auf Bänder geschrieben, die von Robotern in die dafür bereitgestellten Laufwerke transportiert werden. Es sind mehrere dieser roboterbasierenden Systeme von den Firmen IBM und StorageTek im Einsatz. Im LRZ werden täglich sehr große Datenmengen (die von ca. 1000 externen Client-Rechnern kommen) archiviert, wobei Archivierung für das LRZ hauptsächlich die Erstellung eines täglichen Backups bedeutet. Für statische Datenbestände bietet das LRZ auch eine Langzeitarchivierung für drei bis maximal vier Jahre an. Bei der Einführung neuer Speichermedien bzw. bei Updates bestehender Archivierungssoftware, sowie bei Einführung neuer Speichermedien werden selbstverständlich diese zu archivierenden Daten vom LRZ umkopiert. Die archivierten Daten werden vom LRZ in ihrem ursprünglichen Zustand vorgehalten, d.h. ob die Daten nach einigen Jahren beim Benutzer, der in der Zwischenzeit eine neue Anwendungssoftware, ein neues Betriebssystem, oder neue Hardware eingeführt hat, noch zu lesen und zu gebrauchen ist, liegt in der alleinigen Verantwortung des Benutzers und ist unabhängig von den Leistungen des LRZ.

In seinem Vortrag beschrieb Herr Dr. Wettengel die Probleme und Schwierigkeiten, die das Bundesarchiv in Koblenz nach dem Zusammenbruch der DDR zu bewältigen hatte. Das Bundesarchiv hatte nicht nur Papierdokumente, sondern auch sehr viele Dokumente in digitaler Form von den Verwaltungen der ehemaligen DDR übernommen. Bei den digitalen Daten handelte es sich um Großrechneranwendungen, vor allem um Erhebungen der amtlichen Statistik, Erhebungen von Fachbehörden sowie um personenbezogene Massendatenspeicher. Die in der DDR eingesetzte Software und die eingesetzten Formate unterschieden sich nicht wesentlich von im Westen eingesetzter Software, so daß keine besonderen Schwierigkeiten bei der Archivierung auftraten. Als Datenträger wurden von der DDR Magnetbänder verwendet, die teilweise in einem sehr schlechten Zustand waren und daher viel Aufwand bei der Archivierung verursachten, Magnetplatten und Disketten als Datenträger spielten keine große Rolle. Sehr große Probleme ergaben sich allerdings mit den unterschiedlichsten Komprimierungstechniken, die in der DDR verwandt wurden, hierbei war meist keine oder aber eine sehr lückenhafte Dokumentation vorhanden.

[Seitenanfang]


Session 3 Archivsysteme/Datenformate – Die Rolle von Normen – Bestehende Technologien für Langfristarchivierung

Das OAIS Modell (Open Archival Information System) ist von der (CCSDS) Consultative Committee for Space Data Systems für Belange der NASA entwickelt worden. Dieses Modell ist aber auch auf Bibliotheken und Archive anwendbar und dient als konzeptionelle Grundlage für den Entwurf digitaler Sammlungen. Das OAIS-Modell beschreibt digitale Informationen als Objekte, die als Pakete die Funktionen des Archivs durchlaufen. Zentrale Einheiten des Modells sind Aufnahme, Speicherung, Datenmanagement, Langzeitarchivierung, Verwaltung und Zugriff. OAIS wird schon jetzt in verschiedenen Projekten angewendet, so z. B. bei CEDARS, NEDLIB, PANDORA, so dass Konzepte und Lösungen miteinander verglichen werden können.

Das MMB-System, das von der Deutschen Bibliothek zusammen mit CSC Ploenzke entwickelt und implementiert wurde, bietet die Möglichkeit, Daten und Anwendungen, die bisher auf unterschiedlichen Medien (div. Diskettenformate, CD-ROM) vorhanden waren über ein gemeinsames Rechnernetz den Benutzern zur Verfügung zu stellen. Aufgrund der Erfahrungen, die im laufenden Betrieb gewonnen werden konnten, wurden die folgenden Thesen zur Diskussion gestellt: Die in einer Publikation enthaltenen Daten können nicht losgelöst von der Präsentationssoftware (=Multimedia-Software) betrachtet werden. Die Migration von Multimedia-Software ist nicht durchführbar. Auch eine Standardisierung von Multimedia-Software kann von der Bibliothek nicht vorgegeben werden. Eine Emulation von verschiedener Original-Software ist z.Zt. nicht stabil genug. Herstellerspezifische Mechanismen wie Kopierschutz, Nutzungszeitbegrenzungen und Bindung an Geräteidentifikationen erschweren Lösungen zur Langzeitarchivierung.

Einige Statements der anschließenden Diskussion sollen kurz angeführt werden. Es existiert z.Zt. kein System, das alle Anforderungen erfüllt.

Es ist schwierig bzw. unmöglich solch ein System zu entwickeln, da schon allein die einzelnen Datenformate zu unterschiedlich sind, XML könnte vielleicht eine Art Vehikel dafür sein bzw. werden.

Potentielle Entwickler brauchen verläßliche Normen und Standards, auf denen aufgebaut werden kann.

Die Industrie betont, daß Bibliotheken und Archive klar formulieren müßten, welche Leistungen sie in naher und ferner Zukunft bezüglich der Langfristarchivierung benötigen - nur so könnten auch entsprechende Entwicklungen in Gang kommen.

Ein anderer Standpunkt hob auf die Marktgesetzlichkeit ab ("der Markt wird es schon richten"): Wenn viele Erzeuger bzw. Produzenten dieselbe Software, denselben Datentyp usw. verwenden, so wird dieser dann hauptsächlich gebrauchte Datentyp über kurz oder lang zu einem Standard für weitere Entwicklungen werden. Bei dieser Überlegung ist allerdings zu berücksichtigen, daß die Antriebskräfte des Marktes nicht unbedingt identisch mit denen der Bibliotheken und Archive ist.

Derzeit kann vom Markt (Industrie, Systemanbieter) praktisch alles für eine kurzfristige Archivierung bereitgestellt werden, aber für eine langfristige fehlen zu viele Voraussetzungen.

[Seitenanfang]


Session 4 Organisation des Digitalen Archivierens – spezialisierte Datenarchive, die Rolle der Produzenten und die Zukunft der Depotbibliotheken.

  • Nancy Elkington: Konzepte in the USA

Die Situation im Bereich der Digitalen Langzeitarchivierung in den USA wurde von Nancy Elkington präsentiert. Die Landschaft ist sehr heterogen. Es gibt nationale und regionale Archive, unterschiedliche Arten von wissenschaftlichen Institutionen, die Daten archivieren müssen (National Archive, National Library, New York State Archive, University of San Diego) und die Library of Congress. Die Forschung in diesem Bereich wird sowohl institutsintern, als auch durch regionale Konsortien und kommerzielle Anbieter betrieben. Internationale Ansätze werden auch in den USA an Bedeutung gewinnen. Ein möglicher Wandel in der Struktur kann sich durch stärker kooperative Ansätze entwickeln.

  • Neil Beagrie: Konzepte in Großbritannien

Neil Beagrie stellte die Aktivitäten des Arts and Humanities Data Service vor, einer zentralen Initiative zur Bereitstellung elektronischer Dokumente. 1996 gegründet, verfügt AHDS über 18 Mitarbeiter an verteilten Institutionen (Kings College, York University, Glasgow University, Surrey Institute of Art & Design, Oxford University, Essex University) mit unterschiedlichen Aufgaben und Sammelgebieten. AHDS sammelt, katalogisiert und archiviert unterschiedliche digitale Dokumente. Dafür werden Standards und Verfahren definiert (Formate, Rechte, Metadaten, Migration etc.).

[Seitenanfang]


Session 5 Forschungsprogramme: Bestehende und geplante Forschungsprojekte

  • Neil Beagrie: Forschungsprojekte und zukünftige Entwicklung

Die in Großbritannien im Bereich Langzeitarchivierung aktiven Organisationen und durchgeführten Projekte präsentierte Neil Beagrie. Die von JISC (Joint Information Systems Committee) und dem NPO (National Preservation Office) unterstützten Studien und Forschungsprojekte sind der Warwick I Workshop 1995 sowie Cedars I und Cedars II. Während die Studien und Cedars I die Bedeutung des Themas verdeutlichen und erste Strategien und Anwendungen voranbringen sollten, konzentriert sich Cedars II auf die Erforschung des Emulationsverfahrens. Weitere bedeutende Initiativen stammen von der Library and Information Commission sowie der Mellon Foundation.

  • Nancy Elkington: RLG-DLF Task Force

In Session 5 stellte Nancy Elkington von der Research Libraries Group eine gemeinsame Initiative der Research Library Group (RLG) und der Digital Library Federation (DLF) vor. Eine Umfrage unter den RLG-Mitgliedern ergab, daß nur wenige über Richtlinien für die digitale Langzeitarchivierung verfügen und noch weniger praktische Verfahren vorweisen konnten. Um dieses Problem anzugehen, wurde eine Task Force eingerichtet, die sich schwerpunktmäßig mit den Themen digitale Dokumente von Institutionen, (kommerzielle) elektronische Publikationen und (retrospektiv) digitalisiertes Material beschäftigt. Es sollen Entwürfe für Definitionen und Standards, mögliche Verfahren, Schulungsmaßnahmen, internationale Kooperationen, Sammelrichtlinien und Modelle entwickelt werden.

  • Susanne Schäfers: Perspektiven der DFG und Virtuelle Fachbibliotheken

Die Deutsche Forschungsgemeinschaft (DFG) unterstützt bereits zahlreiche Projekte im Bereich der Digitalisierung und teilweise auch der Langzeitarchivierung (beispielsweise die Digitalisierungszentren, das Projekt zur Langzeitarchivierung an der BSB, NEDLIB usw.). Die Projektnehmer im Förderbereich der "Virtuellen Fachbibliotheken", ebenfalls von der DFG gefördert, sollen sich in Zukunft verstärkt dieses Themas annehmen. Die Forschungsaktivitäten sollten konkretere Formen annehmen, daher wurde eine Arbeitsgruppe aus den beteiligten Institutionen initiiert, die Themenbereiche bestimmen und Projekte entwickeln kann.

[Seitenanfang]