Kapitel 3. Prinzipien

Im September 2000 wurde auf der DINI-Jahrestagung in Dortmund festgestellt: „In Deutschland sind in den letzten Jahren auf Fachbereichsebene, Hochschulebene oder Landesebene viele lokale oder regionale elektronische Archive entstanden. Nur in wenigen Fällen ist der Aufbau dieser Archive nach einem abgestimmten, kompatiblen und auf hohe Verfügbarkeit und Retrievalmöglichkeiten orientierten Konzept erfolgt. Sowohl die Persistenz der Datensätze als auch ihre Beschreibung mit Metadaten sind kaum gegeben. Ein Retrieval über mehrere Archive ist so, wenn überhaupt, nur eingeschränkt möglich. Diese Situation behindert die nationale und internationale wissenschaftliche Kommunikation in erheblichem Maße und bedarf einer möglichst raschen Verbesserung.“<2>

Die Open Archives Initiative

Die Open Archives Initiative<3> hat sich in den letzten Jahren als eine international operierende Initiative herausgebildet, die sich primär dem Ziel der Verfügbarkeit und des weltweiten Zugangs zu wissenschaftlichen elektronischen Publikationen, besonders auf Preprint-Servern verschrieben hat. Diese Idee der weltweiten Vernetzung und des Zuganges zu den Metadaten breitet sich immer mehr aus, wie die seit 1999 wachsende Zahl der beteiligten Archive, Bibliotheken, Universitäten und Museen zeigt. Die zurzeit in der Abstimmung befindlichen Rahmenbedingungen, das Open Archive Protokoll, der Open Archive Metadatensatz und die Zugangsregelungen bieten die Chance, zu einer internationalen Vernetzung der Literaturresourcen beizutragen, die auch durch deutsche Universitäten und Dokumentenserver genutzt werden muss.

DINI führt hierzu Implementations- und Anwenderworkshops<4> durch, um die Installation der OAI-Technologie in Deutschland zu unterstützen und voranzutreiben.

Damit dieser Ansatz technisch verwirklicht werden kann, wird die Nutzung der nachfolgenden Standards empfohlen.

Metadaten

Für elektronische Dokumente ist ein gemeinsames konzeptionelles und strukturelles Datenmodell von entscheidender Bedeutung, weil unterschiedliche Anwendungen einfacher miteinander kommunizieren können und die Nachweisstruktur integer gewahrt bleibt. Diese Bedingung erfüllen Datenmodelle, die auf Dublin Core<5> basieren.

Als Standard der Dokumentbeschreibung hat sich das Dublin Core Metadata Element Set etabliert, das durch funktionierende Gremien und eine institutionalisierte Folge jährlicher Workshops gepflegt und weiterentwickelt wird. Die internationale Akzeptanz des Dublin Core Element Set hat gute Gründe:

Diese Dublin Core Metadaten sind durchaus mit herkömmlichen Verzeichnisdiensten kompatibel und austauschbar. So wurde auf der Basis der Erfahrung mit Dublin Core Metadaten am Bibliotheksservice-Zentrum Baden-Württemberg ein qualitätsorientierter Produktionsbetrieb bibliographischer Daten, besonders mit den OPUS-Installationen<7> in Baden-Württemberg verwirklicht. Auch bei der Meldung der Metadaten von Dissertationen an Die Deutsche Bibliothek wird diese Möglichkeit genutzt. Der Verzeichnisdienst "Metaform" der SUB Göttingen<8> beinhaltet eine Zusammenstellung und vergleichende Analyse solcher Dublin Core-Anwendungen.

In einzelnen hochformalisierten Gebieten gibt es Versuche, Metadaten automatisch aus der Datei selbst zu generieren. Entsprechende Projekte existieren z. B. für Forschungspapiere in den Ingenieurswissenschaften, wo man mit automatischer Klassifikation recht weit kommt, oder auch für den sehr wichtigen Bereich medizinischer Online-Dokumente<9>. Es ist von großem Interesse, diesen Pfad zur automatischen Generierung von Metadaten weiterzuverfolgen, auch wenn es momentan für die Klassifikation allgemeiner elektronischer Publikationen im Hochschulbereich noch keine Alternative zu manueller Metadatenvergabe gibt.

Dokumentformate

Bei der Auseinandersetzung mit Standards für das elektronische Publizieren nimmt die Diskussion zu Dokumentformaten eine zentrale Rolle ein. Der Begriff des Dokumentformats bezieht sich jedoch nicht allein auf die Festlegung von Speicherformaten für Dateien, insbesondere für Texte, sondern auf ein Modell, das es erlaubt, verschiedene Medien zu bedienen und zu integrieren. Das Dokumentformat bildet den Rahmen, um die Zusammengehörigkeit und das Zusammenspiel sowie die Abfolge der Informationen für die Elemente eines Dokumentes wie Text, Bild, Ton, Video, Animation, Datentabellen zu erfassen. Das folgende Datenmodell erweist sich dabei als praktikabel. Es geht von einer Einheit von drei Bestandteilen aus:

Geht man von diesem Dokumentenbegriff aus, kann man die Dokumentformate für das elektronische Publizieren entsprechend ihrer Anwendungsgebiete klassifizieren und das für die jeweilige Nutzung am besten geeignete Datei- oder Dokumentformat auswählen:

In diesen Empfehlungen zum elektronischen Publizieren beziehen wir uns, wie eingangs hervorgehoben, in erster Linie auf textgebundene Publikationen. Auf dem Gebiet der Veröffentlichung von Multimedia-Präsentationen existieren zum gegenwärtigen Zeitpunkt noch keine gefestigten Standards. DINI hat zu diesem Thema eine weitere Arbeitsgruppe<11> gegründet, die zum gegebenen Zeitpunkt Empfehlungen erarbeiten wird.

Erstellung

Die Verwendung von Textverarbeitungssystemen wie Microsoft Word, WordPerfect oder LaTeX zur Erstellung von elektronischen Hochschulpublikationen ist weit verbreitet, da sie den Autoren fast durchgängig zur Verfügung stehen. Für die Erstellung von Publikationen sind diese Systeme jedoch nur eingeschränkt praktikabel. Eingeschränkt deshalb, weil sie den Forderungen nach flexibler Verarbeitung, Archivierbarkeit und frei wählbaren Präsentationsformen (WWW, Druck, e-book) nicht entsprechen. Das Textsatzsystem LateX ist zur Erstellung von flexibel verarbeitbaren elektronischen Dokumenten durch seine primäre Orientierung auf den Ausdruck auf Papier als Präsentationsform weniger geeignet.

Dieser Widerspruch zwischen der Nutzerfreundlichkeit moderner Textverarbeitungssysteme und ihrem Mangel an Flexibilität und der Nichtbeachtung von internationalen Standards wie XML oder gar SGML ist weltweit erkannt. Viele Hersteller unternehmen Anstrengungen, ihre Produkte entsprechend anzupassen. So ist z. B. bei der Version 6 des kostenfreien Produkts „Staroffice“ XML als Austauschformat eingeführt. Weitere Entwicklungen sind absehbar, ohne dass sich heute der Zeitpunkt der Verfügbarkeit und der Grad der Einhaltung von Standards vorhersagen lässt.

Von besonderer Bedeutung ist in diesem Zusammenhang, dass zu den Klassen von entstehenden Dokumenten entsprechende, möglichst einheitliche Beschreibungen der inneren Struktur existieren sollten, die sogenannten Document Type Definitions (DTD).

In der DINI-Arbeitsgruppe bestand Einigkeit darin, dass langfristig die hier formulierten Anforderungen zu erfüllen sind und schon heute nach Möglichkeit danach gearbeitet werden sollte. Das gegenwärtig gängigste Verfahren besteht allerdings darin, die Nutzung der in den Textverarbeitungssystemen integrierten prinzipiellen Möglichkeiten der Strukturierung durch die Autorinnen auszuschöpfen. Dazu wird z. B. an der Humboldt-Universität und durch das DFG-Projekt DissOnline dem Autor die Nutzung von vorgefertigten Formatvorlagen bei der Anwendung von Microsoft Word vorgeschrieben bzw. empfohlen. Diese Formatvorlagen entsprechen unter Einschränkungen der angestrebten DTD. Durch entsprechende Konvertierungstools ist es möglich, nahezu automatisch XML-konforme Dokumente zu erhalten (siehe auch <12>).

Wichtig ist in diesem Zusammenhang, dass der Autor entsprechende Hilfestellungen im Umgang mit Formatvorlagen durch Kursangebote und Beratungsmöglichkeiten erhält. Dies sind dauerhafte Aufgaben sowohl für die Infrastruktureinrichtungen wie Bibliotheken und Rechenzentren als auch für die wissenschaftlichen Fachgesellschaften.

Präsentation

Das Präsentationssystem muss möglichst flexibel sein, um die Erweiterung auf neue Aufgabenbereiche zu ermöglichen. Medienelemente in neuen bzw. weiterentwickelten Formaten sollten hinzugefügt werden können, ohne das Präsentationssystem als Ganzes wechseln zu müssen und ohne dem Benutzer Installationsaufwand zu verursachen. Offene Standards sollten so weit wie möglich Berücksichtigung finden.

Das Portable Document Format (PDF) der Firma Adobe erweist sich diesen Anforderungen am ehesten gewachsen. Es hat den entscheidenden Vorteil, dass die Darstellung auf dem Bildschirm und der Druck nahezu identisch sind. Es ist weit verbreitet und wird vielfach schon als Quasistandard genutzt.

PDF lässt sich in der Zwischenzeit aus allen gängigen Textverarbeitungsprogrammen erzeugen und ist plattformunabhängig in allen WWW-Browsern verfügbar. Vielfach wird diskutiert, wem es obliegt - dem Autor oder dem Betreiber des jeweiligen Servers -, die PDF-Version der Publikation zu erzeugen. Sollte der Autor diese Aufgabe übernehmen, so benötigt er auch hier in vielen Fällen entsprechende Hilfestellung durch fachkundiges Personal.

HTML wurde als Präsentationsformat für die Bildschirmausgabe über einen WWW-Browser entwickelt. Ein akzeptabler, layoutstabiler Druck ist daraus nicht zu erzeugen.

Retrieval

Typische Recherchestrategien in digitalen Bibliotheken sind zurzeit:

Navigation (Browsing):

Beim Browsing navigieren Benutzer in Verzeichnis- oder Katalogdiensten durch eine Struktur, die auf einem Klassifikationsschema, Thesaurus oder auf sonstigen strukturierten Listen basiert. Am Ende dieses Navigierens steht eine Liste von Dokumenten, durch die entweder geblättert oder über die dann eine gezielte Abfrage geschickt werden kann.

Suche: Benutzer formulieren, eventuell unter Nutzung Boole'scher Operatoren, Abfragen, die ihr Informationsbedürfnis beschreiben, um so relevante Dokumente zu finden. Eine Recherche kann über einzelne Datenbankfelder geführt werden oder über mehrere, die für die jeweilige Abfrage miteinander verknüpft werden. Bei zahlreichen Datenbanken gibt es "vorgefertigte" Verknüpfungen von Datenbankfeldern, die direkt angesprochen werden können. Innerhalb dieser Feldsuchen können die Suchtermini frei gewählt oder über einen Index ausgewählt werden.

Im Bereich der Feldsuchen lassen sich verschiedene Formen unterscheiden. Sie erfordern eine entsprechende Auszeichnung dieser Elemente in den Datenbanken.

Folgende Funktionen müssen hierzu möglich sein:

Authentizität und Integrität

Während die Wahrung der Authentizität und Integrität papiergebundener Publikationen relativ problemlos ist, sind bei elektronischen Veröffentlichungen besondere Maßnahmen zur Verhinderung bzw. zum Nachweis von Fälschungen oder Manipulationen zu treffen.

Die Anforderungen lassen sich unterteilen in:

Sicherung des Dokumentenservers

Elektronische Dokumente sollten jeweils auf einem Dokumentenserver, der sich durch eine hervorgehobene allgemein anerkannte Policy auszeichnet, gespeichert werden. Folgende Aussagen sollte diese Policy enthalten:

Sicherung der einzelnen Dokumente

Die Authentizität und Integrität des digitalen Dokumentes muss stets nachweisbar sein. Das heißt, es muss nachvollziehbar bewiesen werden können, dass das veröffentlichte Dokument seit dem Tag der Bereitstellung nicht mehr verändert wurde, weder vom Autor, noch vom Systemadministrator oder gar einem Dritten. Hier sollten Verfahren Anwendung finden, die durch die Nutzung gesetzeskonformer<14> digitaler Signaturen und Zeitstempel etwaige Fälschungen elektronischer Dokumente auffindbar machen und somit eine Überprüfung der Authentizität und Integrität dieser Dokumente ermöglichen. Anbieter derartiger nach dem Deutschen Telekommunikationsgesetz arbeitender Zertifizierungsinstanzen<15> sind zum gegenwärtigen Zeitpunkt z. B.:

Telesec GmbH (http://www.telesec.de)
SignTrust der Deutschen Post AG (http://www.signtrust.de/start.htm)
D-Trust der Bundesdruckerei (http://www.D-TRUST.net/)
Bundesnotarkammer (http://dir.bnotk.de)

Durch die Ergänzungen zum Signaturgesetz<16> wird es u. U. auch für Universitäten möglich, Public Key Infrastrukturen aufzubauen, die gesetzeskonforme digitale Signaturen nutzen, ohne die sehr strengen und finanziell äußerst aufwendigen Regelungen des ursprünglichen Gesetzes umsetzen zu müssen.

Archivierung und langfristige Verfügbarkeit

Elektronische Materialien bedürfen besonderer Anstrengung, um eine langfristige Verfügbarkeit zu sichern.

"Langfristig" bezeichnet nach unserem Verständnis einen Zeitraum, der sich mindestens bis zu einem Zeitpunkt in der Zukunft erstreckt, zu dem nur noch höchst ungenaue Aussagen über die herrschenden technischen Umgebungsbedingungen gemacht werden können. Damit ist die Verfügbarkeit elektronischer Dokumente für eine Nutzungssituation zu gewähren, die von mehreren unbekannten Faktoren bestimmt wird:

Hierfür sind an verschiedenen Stellen Anstrengungen erforderlich. Die Deutsche Bibliothek wird, sofern ihr der gesetzliche Auftrag zur Wahrnehmung der Aufgabe erteilt wird, ein Depotsystem für elektronische Publikationen einrichten, das den Einsatz mehrerer Techniken zur Langzeiterhaltung in Kombination unterstützen wird.

Dazu werden gehören:

Elektronische Hochschulschriften werden den Prozessen dieses Depotsystems genauso unterzogen wie elektronische Publikationen des Verlagswesens. Die internationalen Entwicklungen gehen dahin, verteilte Archivierungsmodelle zu installieren.

Die Mehrheit der Projekte, die sich mit Fragen der Langzeitverfügbarkeit digitaler Publikationen befassen, verwenden inzwischen das Referenzmodell "Open Archival Information System (OAIS)"<17> . Das Modell stammt aus dem Kontext der Datenarchive für Raumfahrt, Meteorologie und Astrophysik. Es tritt mit dem Anspruch an, den Funktionsumfang eines Archivsystems für beliebige Daten vollständig zu beschreiben. Dazu gehören:

bild


Fußnoten:

<2>

http://www.dini.de/dokumente/oai-appell-0912.pdf

<3>

http://www.openarchives.org

<4>

http://www.dini.de/dinioai/oaiveranstaltungen.php3

<5>

z.B.http://www.bsz-bw.de/diglib/medserv/konvent/konzept/konzept.html

<6>

http://www.oclc.org/

<7>

http://elib.uni-stuttgart.de/opus/

<8>

http://www.sub.uni-goettingen.de/

<9>

http://cora.whizbang.com/

<10>

http://www.ccsds.org/documents/pdf/CCSDS-650.0-R-1.pdf

<11>

http://www.dini.de/workshops/der-med/virtlehr1.php3

<12>

http://dochost.rz.hu-berlin.de/epdiss/downloads.html

<13>

http://www.pca.dfn.de

<14>

http://www.regtp.de

<15>

siehe Verzeichnis unterhttp://www.regtp.de/tech_reg_tele/start/in_06-02-08-00-00_m/index.html

<16>

http://www.sicherheit-im-internet.de/themes/themes.phtml?ttid=38

<17>

http://ssdoo.gsfc.nasa.gov/nost/isoas/ref_model.html


DiML DTD Version 2.0

HTML - Version erstellt am: Thu Nov 29 11:07:15 2001