Anlage zu AZA 6
Vorhabenbeschreibung AP 6

Metadata based Indexing of Scientific Resources

Partner

E.Cordes,
J. Plümer
R.Schwänzl
H. Zillmann

Vorprojekt
Bibliothek, Autoren/Leser

Universitätsbibliothek
Fachbereich Mathematik/Informatik
Universität Osnabrück
Universitätsbibliothek

cordes@
fsub1.ub.uni-osnabrueck.de
roland@
mathematik.uni-osnabrueck.de
zillmann@
fsub1.ub.uni-osnabrueck.de

0541/969
-4319
-2526
-2531
-4359

M.Feith
M.Piotrowski
F.Schmidt

Vorprojekt Verlag

Springer Verlag

FEITH@springer.de
m.piotrowski@springer.de
F.Schmidt@springer.de

06221/487
-623
-303
-236

Kontaktadresse

Priv.-Doz. Dr. Roland Schwänzl
Fachbereich Mathematik/Informatik
Universität Osnabrück
Albrechtstr. 28
49069 Osnabrück
Tel: 0541/969-2531
Fax: 0541/969-2770
e-mail: roland@mathematik.uni-osnabrueck.de

Keywords

Metadata, MAJOUR-Header, Dublin Core, RDF, Formal Identifiers, Heterogeneity, Indexing

Abstract
The aim of the work package is to combine existing sources of Metadata to allow for high quality indexing of scientific material from different and distributed sources in specialized search engines.
It therefore will develop crosswalks between Metadata formats (for instance MAJOUR-Header to DC), it will evaluate and keep/bring up to date tools for generation of DC Metadata encoded in RDF. In particular tools for authentication (as developed by -- AP 1), formal expression of terms and conditions (as developed by -- AP 2) will be built in into Metadata generators. The work package will support the use of formal identifiers such as the DOI and other implementations of URN's (as developed by -- AP 4).
The work package will serve for linking of resources using relations of various types by formal identifiers. Mechanical (for instance: resource is available at, is contained in collection) as well as logical relations (for instance: resource has as reference, is referenced by, is reviewed by) will be supported. Tools for automatic updating of relation Metadata will be developed during the project.
 Prototypic implementations of search engines in library environments will validate the efficiency of the techniques developed. In particular the retrieval environment -- AP 7) will serve as test bed.
The work package is based on ideas formulated in [K.Barghorn/H.vanDorssen: Stellungnahme], [R.Schwänzl: Vorüberlegungen, Ein Rahmen?] and [J.Krause, R.Schwänzl: Inhaltserschließung, section 2].
The authors invite publishing houses, FIZ's hosting review databases/journals, libraries and organizations editing preprint indexer to join.
We expect noise effects caused by inconsistent use of Metadata conventions for instance. The work package in this respect behaves as a user with respect to results delivered by work packages focussing on heterogeneity.

I. Ziele: Gesamtziel des Vorhabens, Bezug zu den förderpolitischen Zielen
(Einordnung in das Basispapier von CARMEN und State of the Art)

Wir gehen von einer relativ stabilen Situation mit einer vergleichsweise großen Anzahl von Anbietern von Materialien, die für die tägliche Forschungsarbeit und die Lehre an Universitäten unmittelbar relevant sind, aus.
In stark ansteigendem Umfang werden wissenschaftliche Journale, Preprintsammlungen, Bücher, Manuskripte, Datenbanken, wissenschaftliche Software, interaktive Objekte im WWW angeboten.
Erste Erschließungswerkzeuge für solche Materialien (Fachinformationssysteme, bibliothekarische Projekte, Verlagsserver mit Suchfunktionen) existieren bereits. Bemerkenswert sind jedoch die Verluste in der Nachweisqualität verursacht durch Systembrüche, die durch rein technische Vorkehrungen nicht überwunden werden können.
Derzeit werden verlagsseitig in erheblichem Umfang Metadaten erzeugt. (In größeren Verlagen sogar in wohldefiniertem Format (MAJOUR Header)). Aus ihnen wird gedrucktes Informationsmaterial und optisch teilweise aufwendig aufbereitetes Material für die jeweiligen Webserver erzeugt. In beiden Fällen kann die ursprünglich vorhandene semantische Strukturierung verloren gehen. Werden nun von Dritten Sammlungen solchen Materials angelegt, um einen Überblick über vorhandene Ressourcen zu einer wissenschaftlichen Fragestellung zu vermitteln/zu erhalten, so kann in der Regel nur ein geringer Teil der semantischen Strukturierung aus der optischen automatisch wiedergewonnen werden. Erschwerend kommt hinzu, daß die optische Aufarbeitung jederzeit geändert werden kann, so daß selbst einmal gelungene semantische Reinterpretation innerhalb kürzester Zeit wertlos werden kann. Konsequenz ist ein Verlust an Investitionen, eine unnötig schwache Retrievalqualität und zumindest die Erschwernis der Weiterverwendung von Retrievalergebnissen.
Bei der Weiterverwertung von Retrievalergebnissen denken wir nicht nur in Richtung Forschung und Lehre sondern auch an den Bereich wissenschaftlicher Dienstleistungen wie beispielsweise die Erstellung von Bestellisten durch Bibliotheksbauftragte an Fachbereichen und deren Weiterleitung an die Bibliothek (und von dort an Grossisten/Verlage). Auch die Vorbereitung der katalogmäßigen Erfassung von Neuzugängen in Bibliotheken liegt im Blick.
Damit ist der zweite und in der Tat der klassische Produzent von Metadaten genannt: Die (wissenschaftlichen) Bibliotheken speziell deren Katalogabteilungen. Typischerweise weist man den Bestand in der lokalen Bibliothek (allenfalls im jeweiligen Verbund) nach. Das enorme Anschwellen der Fernleihen deutet darauf hin, daß wissenschaftliche Bibliotheken nur noch partiell den Anspruch erfüllen können, den lokalen Literaturbedarf aus dem Bestand zu befriedigen. Ein fortgeschrittener OPAC kann sich nicht auf diesen beschränken.
Die bibliotheksinternen Ressourcen stehen in der Regel - für Angehörige der Universität - kostenfrei zur Verfügung. Nicht vorhandene Dokumente können bei Dokumentenlieferdiensten bestellt oder auch direkt von den Verlagsservern abgerufen werden. Diese Art der Dokumentenbeschaffung ist im allgemeinen kostenpflichtig.
Der alleinige Verweis auf Dokumenten(schnell)lieferdienste ist nicht sonderlich sinnvoll. Typischerweise entstehen so dem Benutzer unnötige Kosten, da das Nachschauen im OPAC nicht unterstützt wird.
Es ist auch nicht einzusehen, warum einem Nutzer nicht auch als Alternative der Direktbezug eines Originals einer resource angeboten werden soll. In Abhängigkeit von der intendierten Nutzung ist eine PDF (oder gar XML) Datei einem niedrigauflösenden scan in einem Graphikformat möglicherweise vorzuziehen.
Noch ein dritter Produzent von Metadaten soll angesprochen werden: Fachinformationssysteme vom Typ MathNet/PhysNet. Die Übernahme/Weiternutzung von dort verfügbaren Metadaten etwa für Preprints und Skripten im weiteren Verlauf des Publikationsprozesses erfolgt bislang nicht. Hierher gehören auch Methoden der Datenübernahme in Datenbanken vom Typ "MATH".

- Wissenschaftliche und technische Arbeitsziele des Vorhabens
(Ziele und Produkte des Arbeitspaketes)

Die in Verlagen produzierten Metadaten zu (Teilen von) Zeitschriftenartikeln, Buch(teilen), Graphiken, Bildern, Applets, Videos, Formeln, Abstracts sollen auf ein einheitliches Format gebracht werden. Dies erfordert zunächst die Erstellung von Konversionsschemata von MAJOUR-Headern in DC Metadaten. Gegebenenfalls sind Konversionsschemata für andere verlagsseitig genutzte MetadatenSchemata in DC Metadaten zu erstellen.
Aus diesen Konversionsschemata sind Werkzeuge zu entwickeln, die einerseits die Konversion der Metadaten übernehmen und andererseits verlagsinterne Metadaten entfernen. Die DC Metadaten werden in RDF abgespeichert und können dann in entsprechenden Datenbanken (-- AP 7) verarbeitet werden.
Neben der Konversion ist auch die Aufnahme von Metadaten zu verbessern. Die Metadaten von Verlagspublikationen werden zum Teil von Autoren oder Referenten erhoben, in gedruckter Form oder im besten Fall per Email an den Verlag geschickt und dort ggf. erneut abgetippt und gespeichert. Für die Erhebung von (Meta)Daten werden Werkzeuge geschaffen, die Autoren/Referenten die Einspeisung und Ergänzung ins Verlagssystem erlauben. Die Bedienung dieses Werkzeug verlangt keine speziellen Kenntnisse über die Syntax von Metadaten oder RDF Dokumenten, wie der für Preprints genutzte Mathematics Metadata Markup Editor. Zu berücksichtigen ist an dieser Stelle die Einbindung von Metadaten aus anderen Systemen, wie z.B. den Preprint-Nachweissystemen MathNet und PhysNet: So sollten Autorenabstracts gespeichert werden, bis es Referate von dritten gibt.
An dieser Stelle ist eine enge Zusammenarbeit mit -- AP 9, zum technischen Upload der Daten. Ein anderes Problem an diesem Punkt ist die Authentifizierung einerseits von Nutzern andererseits von Dokumenten. Daher ist zur Sicherstellung der Authentifizierung des Nutzers eine Zusammenarbeit mit -- AP 1. Zur sicheren Authentifizierung von Dokumenten ist der Nachweis von URN's, DOI's, ISBN, ISSN erforderlich.
Der Nachweis der URN's innerhalb der Metadaten dient dabei nicht nur der Authentifizierung von Dokumenten, sondern ermöglicht außerdem eine Vernetzung der Dokumente untereinande r:
Hierzu ist allerdings zunächst ein Werkzeug vorzusehen, daß die Referenzen innerhalb von Dokumenten durch deren URN's, soweit möglich ersetzt. Dies erfordert eine Verlags-übergreifende Zusammenarbeit. Die Speicherung der Metadaten der Dokumente in der Datenbank -- Fuhr ermöglicht damit eine mehrdimensionale Sicht auf den Informationsraum, der durch die Beziehungen der Dokumente untereinander Struktur erhält. Die Struktur, die durch Referenzen im Sinne von Literaturangaben entsteht, ist dabei nur eine von vielen Möglichkeiten, es ist auch zu denken an Relationen wie "Ist Übersetzung von", "Ist Version von", "Setzt den Inhalt von ... voraus", die unter DC.Relation formuliert werden können.
Zur Zusammenführung der Metadaten sind unterschiedliche technische Modelle denkbar und jedes von ihnen ist sinnvoll in unterschiedlichen Ausgangssituationen:
Ein Verlag stellt die RDF-Files als XML-Dokumente auf dem Filesystem zur Verfügung.
In diesem Fall kann ein nachnutzendes System die Daten unter Nutzung von Gathering Tools (--AP 7) einsammeln.
Ein Verlag betreibt selbst eine RDF-basierte Datenbank und exportiert deren Inhalt, wird also repliziert (-- AP 7).
Die Replikation kann technisch unterschiedlich erfolgen. Die in Bezug auf Netzlast und Zuverlässigkeit günstigste Variante muß während der Projektlaufzeit in Tests zus ammen mit -- AP 7 ermittelt werden. Getestet wird dabei z.B. der Export durch Bereitstellung über ftp-Server in Verbindung von Mirroring einerseits, aber auch der Eins atz von CastaNet Channels.
Die Daten gelangen auf diese Weise in ein Nachweissystem. Die Universität Osnabrück wird ausgehend von Systemen wie beispielsweise ELib und EMIS ein Testbed aufbauen.
(ELib weist Informationen zu Preprintservern, Servern von wissenschaftlichen Gesellschaften und von elektronischen Journalen und Büchern und Zeitschriften der lokalen Bibliothek nach. Eine inhaltliche Erschließung von elektronischen Zeitschriften wird bereits jetzt für einige Fachdisziplinen angeboten, allerdings ohne die gezielte Nutzung von Metadaten, da diese nicht in entsprechender Form vorliegen. EMIS ist der mathematische Informationsservice, der von der Europaen Mathematical Society (EMS) angeboten wird. Über diesen Service sind Nachweiss ysteme wie z.B. die elektronisch aufliegenden Datenbanken MATH und MATHDI erreichbar.)
Durch die importierten Daten wird die direkte Verbindung zu den Anbietern der Informationen über die URN's ermöglicht. Andererseits sollen Hinweise zum lokalen Bestand der jeweiligen Universitätsbibliothek, zu Abstracting und Reviewing Diensten gegeben werden (-- AP 4).

II. Stand der Wissenschaft und Technik, bisherige Arbeiten

(Informationsrecherche und weitere Arbeiten des Antragstellers in Anlage)

Unterschiede zu bestehenden Datenbanken

Derzeitige Datenbanken sind vielfach darauf angewiesen Ihre Inhalte aus dem Verstreut im Word Wide Web enthaltenen Informationen automatisch zu generieren. Da keine echte Strukturinformation zu diesen Daten vorliegt, werden Layout Elemente herangezogen, um eine strukturierte Suche auf dem Datenbestand durchführen zu können.
(Beispielsweise werden fett gesetzte Zeilen mit dem Titel des Dokuments gleichgesetzt). Bei dieser Vorgehensweise werden viele Informationen, die ursprünglich bereits erfaßt wurden, verloren. (Beispielsweise werden Keywords nicht erkannt, weil sie sich im Layout nicht determiniert vom Inhalt absetzen). Ein Lieferdienst dieser Strukturen ist für den Aufbau einer quantitativ hochwertig nutzbaren Datenbank unumgänglich. Der Springer-Verlag ist sehr daran interessiert, das Wissen um Inhalte der eigenen Datenbank breit zu streuen. Durch die Aufnahme von Hinweisen auf die Springer Inhalte in qualitativ hochwertigen Datenbanken kann eine breitere Nutzerschicht erreicht werden. Für digitale Bibliotheken ergibt sich durch die konsequente Nutzung standardisierter MetaDatenAustauschformate eine breite Palette (s. Arbeitsplan) der Weiterverwendung der strukturierten Daten. Vorteile ergeben sich sowohl in der Sicht des Datenbanknutzers, als auch in der Verwaltung und im Aufbau von Bibliothekbeständen.
Die Qualitätsunterschiede zu bestehenden Datenbanksystemen bestehen auch in der Möglichkeit Dokumente zueinander in Relationen zu setzen. Durch die Aufnahme von eindeutigen digitalen Kennungen URN/DOI können Rezensionen von Artikeln, wie sie im Zentralblatt Mathematik die Regel darstellen, mit den Originalartikeln verknüpft werden. Auch für Orginalarbeiten können solche Relationen hergestellt werden. Die Referenzen der Artikel müssen dabei durch URNs/DOIs ersetzt werden. Für diese Ersetzungen müssen von der Uni-Osnabrück Werkzeuge entwickelt werden. Möglich ist der Einsatz solcher Werkzeuge auch durch die Verknüpfung von DOIs und Metadaten, wie sie derzeit von der DOI-Foundation und der DublinCore Initiative vorangetrieben werden. [Paskin/Rust-Papier]. Der Weiterbetrieb der prototypischen Installation und die Softwarewartung soll das in Gründung befindliche Institut für wissenschaftliche Information tragen. Die im Rahmen von ELib bestehende Anwendungskooperation mit der SUUB Bremen und der SUB Göttingen soll (auch nach Projektabschluß) fortgeführt werden. Die Nutzung der entwickelten Techniken ist auch für das MPRESSystem und EMIS vorgesehen.

Literatur/bisherige Arbeiten des Antragstellers

Roland Schwänzl: Vorüberlegungen: Ein Rahmen?
http://www.mathematik.uni-osnabrueck.de/projects/slot3/workshop98/vorueber.html

K.Barghorn/H.vanDorssen: Stellungnahme
http://www.mathematik.uni-osnabrueck.de/projects/slot3/workshop98/sprinels.html

J.Krause, R.Schwänzl: Inhaltserschließung, section 2
http://www.mathematik.uni-osnabrueck.de/projects/slot3/workshop98II/KS.html

Norman Paskin: Information Identifiers
LEARNED PUBLISHING, Vol 10 No. 2, pp 135-156 (April 1997)
http://www.elsevier.nl/homepage/about/infoident/

Norman Paskin: Digital Information Objects and the STM Publisher
Reproduced from STM Annual Report, 1997
http://www.elsevier.nl/homepage/about/diginfo/

Godfrey Rust: Metadata: The Right Approach
D-Lib Magazine July/August 1998
http://www.dlib.org/dlib/july98/rust/07rust.html

E. Cordes, J. Plümer, R. Schwänzl, H. Zillmann:
Elektronische Bibliothek. Zwischenbericht
http://elib.Uni-Osnabrueck.DE/berichte/zwbericht1.html

Judith Plümer: Components of an Electronic Library
MetaData: Qualifying WebObjects: 15.10.97
http://www.mathematik.uni-osnabrueck.de/projects/workshop97/papers/pluemer.html

E. Cordes, J. Plümer, R. Schwänzl, H. Zillmann:
Elektronische Bibliothek. Installation
http://elib.uni-osnabrueck.de/

III. Ausführliche Beschreibung des Arbeitsplans
Vorhabenbezogene Ressourcenplanung, Meilensteinplanung
(Arbeitsplan)

6 Monate Erstellung und Test von Konverterwerkzeugen
Verlag Aufstellung, resp. Erfassung der vorhandenen Strukturelemente zur Dokumentbeschreibung in den Verlagsmaterialien in Abhängigkeit
  1. von den Dokumenttypen
  2. der Semantik
  3. der jeweils verwendeten Syntax
  4. etwaiger Fachspezifika
Dokumentation.
Begonnen wird in den Fächern Mathematik/Physik
Zeitschriften (2 Monate)
Bücher (2 Monate)
Genuin elektronische Materialien (2 Monate)
Probedaten werden frühzeitig (nach einem Monat) der Universität Osnabrück zur Verfügung gestellt.
Universität Osnabrück, Fb. Mathe/Info Erarbeitung eines RDF Schemas für MAJOUR-Header (Entwurf) RDF Implementation auf DC Basis (3 Monate)
Design+alphaVersion eines Konverters (3 Monate)
Universitätsbibliothek Osnabrück Analyse bibliotheksinterner MetaDaten für Bücher und Zeitschriften in den Bereichen Erwerb/Katalogisierung. Modellierung der Nutzung von Headerinformation in diesem Bereichen (3 Monate) Erstellung von Werkzeugen zum Import von RDF-MetaDaten in diesen Bereichen (alpha-Version) (3 Monate)
3 Monate Testphase
Verlag Test und Installation des Konverters, Generalisierung auf weitere Fächer.
Universität Osnabrück, Fb. Mathe/Info Installation und Test des Retrievalnucleus von AP7 basierend auf den Testdaten des Verlages
Universitätsbibliothek
Test des Importwerkzeuges im Bereich Erwerb/Katalogisierung
3 Monate Fertigstellung der Konversionswerkzeuge und Durchführung der Konversion in den Ausgangsfächern
Verlag Konversion der MetaDaten von Zeitschriften, Büchern, genuin elektronischen Materialien
Universität Osnabrück, Fb. Mathe/Info Fertigstellung (ggf. Bugfixes) des Konversionswerkzeuges in enger Zusammenarbeit mit dem Verlag.
Dokumentation des Werkzeuges.
Universitätsbibliothek Osnabrück Fertigstellung (ggf. Bugfixes) des Importwerkzeuges im Bereich Erwerb/Katalogiesierung. Import der vom Verlag bereitgestellten Daten. Bericht über die Effektivität des Werkzeuges.
Vorbereitung des elektronischen , MetaDaten-basierten Bestellwerkzeuges.
Nutzung von strukturierten Daten (MetaDaten) für das Retrieval
2 Monate Verlag Untersuchung der verlagsseitigen Nutzbarkeit von Autoren-erstellten MetaDaten. Test des Upload-Werkzeuges aus AP1.
4 Monate Beginn der Erprobung Push-/Pulltechniken (Verzeichnisdienste, LDAB, CastaNet channels, ftp, gathering).
2 Monate Universität Osnabrück, Fb. Mathe/Info
4 Monate Nutzung der RDF-Daten zum Retrieval von Zeitschriftenartikeln in ELib: Anpassung der Retrieval-Werkzeuge. Berücksichtigung der Arbeitsergebnisse aus AP11 zur Integration von Artikeln ohne RDF-Datensätze.
Evaluation des Prototypen aus AP 7.
Verweis auf "günstigste" oder alternative Bezugsquellen von Volltexten. Hierbei werden die Ergebnisse aus AP2/5 genutzt, insbesondere FIZ Karlsruhe (Linking von Autorenabstracts (DOI), Reviews (URN (AP 4)), Bestandsinformationen (PPN)).
6 Monate Universitätsbibliothek Osnabrück Fertigstellung des elektronischen Bestellwerkzeuges und Nutzertests an der Universität Osnabrück, beginnend im Fachbereich Mathematik/ Informatik.
5 Monate Liefertechniken
Verlag Implementierung von Push-/Pulltechniken nach Auswertung der Erprobung zum Transport der RDF Daten. In dieser Phase wird auch entschieden, wo die Konversion der strukturierten Daten dauerhaft erfolgt. Test des erweiterten Prototypen aus AP7 in ELib, Bericht und (voraussichtlich) Weiternutzung.
Universität Osnabrück, Fb. Mathe/Info
Universitätsbibliothek Osnabrück Verweis aus dem OPAC auf "günstigste" oder alternative Quellen von Volltexten / elektronischen Materialien. Hier finden erneut die Arbeitsergebnisse aus AP2/5 Anwendung.
Bericht über die Nutzung des elektronischen Bestellwerkzeuges.
1 Monat

Gesamtdokumentation

IV. Verwertungsplan in Anlage

V. Arbeitsteilung/Zusammenarbeit mit Dritten
(Organisationsform)

Die Koordination übernimmt der Fb. Mathematik/Informatik der Universität Osnabrück. Neben der Kommunikation der Partner auf elektronischer Basis werden Arbeitstreffen zur Abstimmung und Erledigung von Detailarbeiten notwendig. Die konkrete Ausgestaltung der Arbeitsteilung ergibt sich aus dem Arbeitsplan.

VI. Notwendigkeit der Zuwendungen
(Förderbedarf)

Aus dem Arbeitsplan ergibt sich der folgende Förderbedarf
Die Laufzeit dieses Arbeitspaktes soll zwei Jahre betragen.

Balkenplan siehe Anlage