Thomas Burch, Kurt Gärtner

Standards der Volltextdigitalisierung am Beispiel der Mittelhochdeutschen Wörterbücher auf CD-ROM und im Internet

 

Einleitung

Im Rahmen der Bemühungen der DFG um eine ‚Verteilte Digitale Forschungsbibliothek‘ werden oder wurden durch das Förderprogramm ,Retrospektive Digitalisierung von Bibliotheksbeständen‘ 56 Projekte gefördert (vgl. den Überblick von Helmut Altrichter: Retrodigitalisierung in Deutschland – eine Zwischenbilanz, Einführungsvortrag zum ‚Forum Retrodigitalsierung‘ 28./29.11.2000). Soweit man aus den Projektbeschreibungen im Verzeichnis des Münchener Digitalisierungszentrums ersehen kann, wird wohl das ganze Spektrum der Digitalisierungsmöglichkeiten von der Seitendigitalisisierung (Image-Scannen) bis zur Volltextdigitalisierung (Textdigitalisierung) in den einzelnen Projekten genutzt, allerdings in sehr unterschiedlicher Weise. Seit Anlaufen des Förderprogramms wird in der weit überwiegenden Zahl der Projekte in extremer Weise die Nähe zum Buchmedium gewahrt: Es genügt die digitale Abbildung der Buchseite, die als Bild im Internet zugänglich gemacht wird; dieses allgemein favorisierte Verfahren der Seitendigitalisierung oder Image-Digitalisierung halten wir nicht in allen Fällen für vorteilhaft, vor allem dann nicht, wenn es sich um Grundlagenwerke wie große kritische Ausgaben und vielbenutzte lexikographische oder enzyklopädische Werke handelt, denn die Vorteile des digitalen Mediums können dabei kaum zum Zuge kommen.

Der Zugriff auf die Seitenbilder erfolgt über Metadaten, die z.B. aus Lemmalisten, Inhaltsverzeichnissen oder - in seltenen Fällen - auch aus Registern bestehen, welche über Hyperlinks mit den entsprechenden Buchseiten verknüpft sind. Aktiviert man diese Links, dann wird man auf digitale Faksimiles der Buchseiten geführt, nur auf die Seiten wohlgemerkt, nicht auf den Text bzw. den Seiteninhalt. Die Benutzung der in Form von digitalen Seitenbildern zugänglichen Werke unterscheidet sich prinzipiell nicht von der Benutzung des gedruckten Buches. Der große Vorteil gegenüber dem Buch besteht darin, daß man nicht an die Öffnungszeiten der Bibliotheken gebunden ist, sondern zu jeder Tag- und Nachtzeit über das Internet auf diese digitalen Ressourcen zugreifen kann und am Bildschirm das Buch aufschlagen und lesen kann. Trotzdem ist das Lesen von Seitenbildern eine mühsame Angelegenheit wegen der langen Ladezeiten. Und wer liest schon gerne am Bildschirm, selbst Bill Gates mutet sich am Bildschirm nicht mehr als 4 Seiten zu. Die Seitendigitalisierung ist aus der Perspektive der Bibliotheken verständlich, nicht immer jedoch auch aus der Perspektive des Wissenschaftlers, dem es nicht um die Buchseite, sondern um den Text eines Werkes und um seinen Inhalt geht und der gezielt nach Informationen im Text eines Wörterbuches oder einer kritischen Edition suchen will. Je näher die digitale Version eines solchen Grundlagenwerkes dem Buchmedium steht, um so weniger bietet es mehr als das Buch selbst.

Nur in etwa einem halben Dutzend der von der DFG geförderten Retrodigitalisierungsprojekte ist die Digitalisierung des Textes selbst das Ziel und Volltexterfassung daher Voraussetzung. Die Volltextdigitalisierung erfordert wohl einen größeren Aufwand, aber nur sie bietet neue und die Vorteile des elektronischen Mediums ausschöpfende Nutzungsmöglichkeiten. Sie erlaubt zumindest Volltextrecherchen, die wir z.B. möglichst noch im Laufe von 2001 für alle 33 Bände mit über 35.000 eng bedruckten Seiten des Deutschen Wörterbuchs der Brüder Grimm auf unserem Server in Trier anbieten werden. Wenn in einer späteren Projektphase der maschinenlesbare Wörterbuchtext im Hinblick auf seinen Inhalt strukturiert und die Strukturen kodiert sind, ermöglicht dies dann auch komplexe Recherchen, die nicht nur eine weit bessere und intensivere Benutzung der Grundlagenwerke erlauben als das Buchmedium, sondern auch ganz neue Nutzungsmöglichkeiten für die Forschung eröffnen. In einem digitalen Wörterbuch, dessen Datengrundlage im Hinblick auf die unterschiedlichen Informationspositionen wie Stichwort, Wortklasse, Etymologie, Bedeutung, Belege mit Autor- und Werkangabe, mit Referenz und Klassifizierung nach Datierung, Lokalisierung und Textsortenzugehörigkeit ausgezeichnet bzw. kodiert ist, läßt sich gezielt nach allen möglichen Erscheinungen suchen, wie das in einem gedruckten Buch auch bei noch so gründlicher Erschließung durch reichhaltige Register nicht möglich wäre.

Am Beispiel des Projektes "Mittelhochdeutsche Wörterbücher auf CD-ROM und im Internet" soll der in den Trierer Retrodigitalisierungsprojekten prinzipiell eingeschlagene Weg von der Papiervorlage bis hin zur elektronischen Publikation vorgeführt werden. Unsere Vorgehensweise orientiert sich dabei am Vorbild anderer großer Digitalisierungsprojekte, wie sie an englischen und amerikanischen Universtätsinstituten und -bibliotheken durchgeführt werden, und vor allem von den großen, auf das electronic publishing spezialisierten Verlagen wie Chadwyck & Healy veröffentlicht werden, deren Produkte den Etat unserer Bibliotheken erheblich strapazieren. Im Prinzip geht es uns dabei um die Beachtung bereits etablierter Standards, nicht nur im Hinblick auf die Fragen: was, für wen und wie (also ob Seitenbilder oder Volltext) sollen wir digitalisieren, sondern auch um Standards im Hinblick die langfristige Haltung und Archivierung der Textdaten, denn diese bilden für die Bibliotheken ein Kapital, das ein enormes Vermarktungspotential enthält und von den Bibliotheken auch entsprechend genutzt werden kann. Natürlich erfordern digitale Ressourcen eine aktivere Verwaltung und Betreuung als gedruckte Publikationen. Mit der Erstellung einer CD oder einer Web-Publikation ist es nicht getan. Deshalb ist ein abgestimmtes Handeln aller an der Produktion von digitalen Ressourcen Beteiligter nicht nur Vorbedingung für bedarfsgerechte und ökonomische Herstellungsverfahren, sondern auch für eine geeignete Langzeitverfügung, die den elektronischen Textdaten, an denen ein langfristiges öffentliches Interesse besteht, die gleiche Archivierungssorgfalt angedeihen läßt wie den gedruckten Büchern.

Der gesamte Projektablauf der Trierer Projekte gliedert sich in drei große Abschnitte:

  1. Zunächst werden die Daten von der Papiervorlage in eine digitale Form gebracht (Digitalisierung),
  2. im Anschluß erfolgt eine Kodierung in SGML/XML als strukturiertem, plattformunabhängigen Format,
  3. dieses dient schließlich als Basis für die elektronische Publikation auf CD-ROM und im Internet.

1. Digitalisierung

Die Digitalisierung der Wörterbücher erfolgt im sogenannten double keying-Verfahren in China. Dort werden manuell von unabhängig arbeitenden Gruppen von Datentypisten zwei Versionen A und B erstellt, wobei nicht nur der reine Text sondern auch alle typographischen Merkmale wie Wechsel zwischen kursiv- und recte-Passagen, Hoch- und Tiefstellungen, unterschiedliche Schriftgrößen usw. und insbesondere sämtliche Sonderzeichen durch entsprechende eindeutige Kodierungen erfaßt werden. Nach der Erstellung der beiden Fassungen werden diese automatisch miteinander verglichen und die Abweichungen in Form eines Differenzprotokolles ausgegeben. Dieses wird dann manuell anhand der Originalvorlage abgearbeitet und eine nahezu fehlerfreie Version erstellt. Als Ergebnis dieses Arbeitsschrittes liegt eine originalgetreue Fassung der Druckvorlage in Form von ASCII-Dateien vor. D.h. insbesondere, daß diese keine soft- oder hardwareabhängigen Kodierungen mehr enthalten. Die Genauigkeit dieser Methode liegt bei ca. 99,997% gegenüber der Vorlage, d.h. es sind ca. 3 Fehler in 100.000 Zeichen zu erwarten.

Gegenüber einer Digitalisierung durch Imagedateien bietet diese Methode folgende Vorteile:

Natürlich sind nicht alle Textvorlagen für eine derartige Volltextdigitalisierung geeignet. Dies gilt insbesondere, wenn in der Vorlage gegebene zweidimensionale Anordnungen von Textpassagen berücksichtigt werden müssen (hierzu gehören z.B. genaue Plazierung von Zeichen übereinander auf festen Positionen im Dokument in Glossenhandschriften oder mathematische oder chemische Formeln). Eine Umwandlung in eine eindimensionale Beschreibung ist in diesen Fällen nur schwer und mit großem Aufwand durchführbar.

2. Auszeichnung mit SGML/XML

Im zweiten Schritt werden die abgeglichenen Daten in einer Form aufbereitet und strukturiert, die einerseits die elektronische Publikation ermöglicht und andererseits ihre langfristige Verfügbarkeit gewährleistet. Für eine derartige systemunabhängige Strukturierung wird der internationale Standard SGML/XML in Verbindung mit UNICODE eingesetzt. Das wesentliche Konzept besteht dabei in der Trennung zwischen dem Inhalt und der Struktur eines Dokumentes auf der einen und seiner Darstellung auf der anderen Seite. Jedes Dokument wird einem speziellen Dokumenttyp zugeordnet, der mittels einer DTD, einer Dokumenttyp Definition, beschrieben wird. In den Trierer Digitalisierungsprojekten werden dabei die von der TEI, der Text Encoding Initiative, vorgeschlagenen Richtlinien zur Kodierung von Wörterbüchern eingesetzt. In einer zeitintensiven Markierungsphase werden die Wörterbuchdaten strukturiert und in SGML ausgezeichnet. Dies erfolgt teilweise automatisch, indem bestimmte Textmerkmale – in erster Linie sind dies typographische Merkmale – ausgenutzt werden, um Programme für das Einbringen der Markierungen zu entwickeln. Eine einfache derartige Regel könnte beispielsweise lauten: Klammere alle in Kapitälchen gesetzten Textabschnitte durch Markierungen, die sie als Autornamen kennzeichnen.

Es ist offensichtlich, daß nur wenige derart einfache Regeln für ein vollautomatisches Markup existieren. Daher wird der größte Teil der Markierungen in Form von halbautomatischen Arbeitsschritten eingebracht. Dazu werden Prozeduren entwickelt, die automatisch Markup anhand von bestimmten Regeln in den Text einfügen, wobei aber die Zahl der so ausgezeichneten Textstücke eine Obermenge der letztendlich zu markierenden Abschnitte darstellt. In einem anschließenden Korrekturschritt werden nun nur die markierten Teile überprüft und überzählige Markierungen wieder entfernt. Im Falle der mittelhochdeutschen Wörterbücher werden auf diese Art beispielsweise die Belegzitate gekennzeichnet, die zunächst dadurch erkannt werden, daß sie als in recte gesetzte Passagen vor einer Sigle charakterisiert werden können. Anschließend werden diese über eine Ausgabe in Listenform direkt am Bildschirm korrigiert.

Als Ergebnis dieser Markierungsarbeiten liegt eine in SGML kodierte, inhaltlich strukturierte Fassung der Wörterbücher vor. D.h., daß die einzelnen Artikelpositionen rein funktional und nicht mehr durch typographische Merkmale beschrieben sind. Die Vorteile einer derartigen Kodierung liegen auf der Hand:

Der Preis für eine derartige Kodierung, die in zeitintensiven und damit auch kostenintensiven Markierungsvorgängen besteht, was insbesondere aufgrund von mehrdeutigen Verwendungen typographischer Eigenschaften zu aufwendigen Korrekturdurchgängen der vormarkierten Daten führen kann, scheint zunächst relativ hoch zu sein. Hinzu kommt, daß unter Umständen mehrere Varianten eines Auszeichnungsalgorithmus entwickelt werden müssen, wenn die Struktur über den gesamten zu digitalisierenden Text sehr heterogen ist. Dies tritt insbesondere bei der Markierung des Deutschen Wörterbuchs aufgrund seiner langen Entstehungszeit dauernd auf. Ein Beispiel sind dort die Gliederungspositionen in den Artikeln, die sehr stark vom jeweiligen Bearbeiter und der Entstehungszeit der Artikel abhängen. Diese Investition zahlt sich jedoch aus, wenn man die Zugriffsarten betrachtet, die durch eine derartige Auszeichnung erst ermöglicht werden.

3. Publikation auf CD-ROM und im Internet

Die SGML/TEI-konforme Version dient als gemeinsame Basis für die verschiedenen Publikationsplattformen. Für die Bereitstellung im Internet werden die SGML-Daten nach HTML konvertiert, so daß sie mit üblichen Browsern angezeigt werden können. Es erfolgt zum einen eine typographische Aufbereitung, indem die SGML-Markierungen über entsprechende Style-Angaben in HTML-Anweisungen umgesetzt werden. Darüber hinaus werden die Verweisstrukturen innerhalb des Wörterbuchverbundes in Hyperlinks abgebildet. In ähnlicher Weise werden die Daten für die CD-ROM Version aus den SGML-Dokumenten erzeugt. Für beide Plattformen wird eine Suchmaschine aufgebaut, die sowohl über die graphische Oberfläche der CD-ROM als auch über einen Web-Server angesprochen werden kann. Sie erlaubt dem Benutzer einen gezielten Zugriff auf den Wörterbuchinhalt. Neben einer herkömmlichen Volltextrecherche werden auch detaillierte Abfragen einzelner Artikelpositionen ermöglicht, wie z.B. Suche nach grammatischen Angaben, nach Belegzitaten, einzelnen Siglen sowie Siglen, die nach Textsorten zusammengefaßt sind.

Ein Beispiel für die aufgrund der SGML-Kodierung möglichen Suchen soll den Vortrag abschließen. Mit Hilfe der Volltextrecherche kann man alle Stichwörter suchen, die mit dem Suffix -unge enden. Dies liefert zunächst eine Treffermenge von 2.054 Artikeln. Durch weitere Recherchen, welche die Kategorien Belegzeitraum und Textsorte einbeziehen, läßt sich dann zeigen, daß das Wortbildungssuffix –unge erst im Laufe des 12. Jahrhundert in Glossaren und aus dem Lateinischen übersetzten geistlichen Prosatexten seine Produktivität allmählich entfaltet und dann in der mystischen Prosa des 13. Jahrhunderts seinen Siegeszug in der Geschichte der deutschen Sprache beginnt. Solche Rechercheergebnisse, die ganz neue Forschungsansätze ermöglichen, sind weder anhand der Buchform noch anhand der digitalen Seitenbilder eines Wörterbuchs zu erzielen. Möglich werden sie nur durch den entscheidenden zweiten Schritt der gezielten Markierung des Textes durch SGML/XML, der zwar sehr zeitintensiv sein kann, aber durch die erzielbaren Ergebnisse in der Regel gerechtfertigt wird; und darüber hinaus wird erst durch ihn eine langfristige Nutzbarkeit der Daten gewährleistet.

[Zurück zum Seitenanfang]

[Weitere Referate] [Zur Startseite des Digitalisierungszentrums]



BSB München 23.01.2001 MDZ@bsb-muenchen.de