Anlage zu AZA 6
Vorhabenbeschreibung AP 7

A Document Referencing and Linking System

Partner

N.Fuhr
K.Groß-
johann
Experte Informatik
Autor/Leser
Fachbereich Informatik
Universität Dortmund
fuhr@
Kai.Grossjohann@
cs.uni-dortmund.de
0231/ 755 -2045
-5670
W. DalitzExperte Mathematik
Autor/Leser
ZIB Berlindalitz@zib.de030/ 84185
-201
J. Plümer
R.Schwänzl
Vorprojekt
Autor/Leser
Universität Osnabrück, FB.Mathematik/Informatikroland@
mathematik.uni-osnabrueck.de
0541/ 969 -2526
-2531

Kontaktadresse

Prof. Dr. Norbert Fuhr
Universität Dortmund, Fachbereich Informatik, Informatik 6, 44221 Dortmund, Tel. 0231/755-2045, Fax 0231/755-2405, E-Mail: fuhr@cs.uni-dortmund.de

Keywords

metadata retrieval, fulltext retrieval, browsing, navigation, automatic classification

Abstract

We propose the development of an integrated hypertext and retrieval system for metadata and fulltext documents in a distributed, heterogeneous environment. The system will support a variety of search and browsing strategies and also allow for fulltext search. For this task, the system will maintain a central database of metadata records and a central index for retrieval and navigation, whereas fulltext documents are stored at their original location. In order to fill the database, a gathering component will access relevant sites in order to return new documents and/or metadata records. Documents are passed to the summarizer in order to generate metadata records automatically.

I. Ziele: Gesamtziel des Vorhabens, Bezug zu den förderpolitischen Zielen
(Einordnung in das Basispapier von CARMEN und State of the Art)

Strukturierte Dokumente und reichhaltige Metadaten können nur dann sinnvoll genutzt werden, wenn hierfür geeignete Retrieval- und Navigationsfunktionen zur Verfügung stehen. Im Rahmen dieses Arbeitspaketes soll daher ein integriertes Retrieval- und Hypertextsystem realisiert werden, das - in der Beschreibung der SFM CARMEN für die Inhaltserschließung als erforderlich erkannte - Recherchestrategien für hochstrukurierte Dokumente und vielfältige Verknüpfungsstrukturen realisiert. Da die zu verwaltenden Dokumente in der Regel verteilt gespeichert sind und in unterschiedlichen Formaten vorliegen, muß dieses System auch über eine Gathering- und eine Extraktorkomponente verfügen.

Viele heute praktisch eingesetzte Retrievalverfahren (insbesondere die WWW-Suchmaschinen und andere Web-basierte Suchsysteme wie z.B. Harvest) behandeln Dokumente als unstrukturierte Textblöcke. Metadaten werden von Harvest nur in HTML2.0 Kodierung erkannt. Daher sind diese Systeme für Dokumentrecherchen nur bedingt geeignet. In dem Maße, wie Metadaten und Volltexte mit reichhaltigerer Strukturierung bereitgestellt werden, wächst auch der Bedarf nach geeigneten Such- und Navigationshilfen, die unter Ausnutzung der explizit vorhandenen Struktur eine präzisere Recherche erlauben. Insbesondere sollen folgende Recherchestrategien unterstützt werden:

Um solche Recherchetaktiken zu unterstützen, muß ein Retrievalsystem zur Verfügung stehen, das strukturierte Dokumente und Metadaten verarbeiten kann und geeignete Such- und Navigationsfunktionen anbietet.

Aus vielfältigen Gründen (z.B. aus rechtlichen und wirtschaftlichen) können die Dokumente selbst häufig nicht an zentraler Stelle gespeichert werden. Daher sollen nur die Metadaten und die Indexierungsdaten in einer Datenbank, die Überblicke vermitteln soll, gespeichert werden. Um auf verteilt vorliegende Metadaten und Dokumente zugreifen zu können, muß eine Sammler-(Gathering-)Komponente bereitgestellt werden. Damit das System neben XML-basierten Dokumentformaten (wie z.B. MathML und CML) auch klassische Dokumentformate wie HTML, Postscript, PDF und LaTeX verarbeiten kann, muß ferner eine Extraktor-Komponente (Extractor/Summarizer) entwickelt werden, die die für die Indexierung benötigten Daten aus diesen Formaten extrahiert.

- Wissenschaftliche und technische Arbeitsziele des Vorhabens
(Ziele und Produkte des Arbeitspaketes)

Es soll ein integriertes Retrieval-und Hypertextsystem entwickelt werden, das um eine Gathering und eine Extraktor-Komponente ergänzt wird.

Das integrierte Retrieval- und Hypertextsystem soll einen zentralen Index sowohl für Metadatensätze als auch für Volltextdokumente verwalten, zudem werden auch die Metadaten zentral gespeichert. Das System soll die folgenden Such- und Browsingfunktionen realisieren:

  1. Suchen in Metadaten
    • Suche XML-Datensätzen
    • Flexible Textsuche
      (Vollformen, Grund- und Stammformreduktion (deutsch, englisch), Nominalphrasen, Komposita)
    • Suchoperatoren für unterschiedliche Datentypen und Taxonomien
      (z.B. Datumsangaben, Personennamen, technische Meßgrößen / Klassifikationsschemata)
    • Ähnlichkeitssuche für Dokumente
    • Strukturierung der Ergebnisse nach benutzerdefinierten Kriterien
  2. Volltext-Retrieval
    • Suche nach den relevanten Dokumentteilen zu einer Anfrage
    • Suche in spezifischen Dokumentstrukturen
      (z.B. Definition, Satz, Beweis in MathML)
  3. Browsen in Hypertext-Strukturen
    • Browsen in Attributwerten und Verzweigen zu den zugehörigen Dokumenten
      (z.B. Autorennamen, Klassifikationen)
    • Navigation zwischen Metadaten und Dokumenten
    • Verfolgen referentieller Verknüpfungen zwischen Dokumenten und/oder Metadatensätzen
    • Browsen in aggregierten Dokumenten
      (z.B. Zeitschrift - Jahrgang - Heft - Artikel)
  4. Automatische Klassifikation
    (mittels nächster-Nachbar-Suche auf bereits klassifiziertem Material)
Die Gathering-Komponente soll die verteilt gespeicherten Dokumente zur Indexierung aufsammeln. Zur Realisierung soll der Harvest-Gatherer um folgende Funktionen angereichert werden:
  1. Verfolgen von Querverweisen (DC.Relation)
  2. Ausgabe im XML-Format
  3. Inkrementelles Gathering
Die Extraktor-Komponente soll Metadaten aus unterschiedlichen Dokumentformaten extrahieren. Ausgehend vom derzeitigen Harvest-Summarizer soll die Funktionalität wie folgt erweitert werden:
  1. Erweiterung auf neue Dokumentformate
  2. Heuristiken zur Extraktion von Metadaten
  3. Änderung des Ausgabeformats nach XML
  4. Kombination der extrahierten Daten mit den vom Gatherer gelieferten Metadaten
  5. Konversion zwischen unterschiedlichen Arten der Inhaltserschließung
Als Ergebnis dieser Arbeiten ist ein integriertes Gesamtsystem mit Retrieval-, Hypertext, Gathering- und Extraktor-Komponenten zu erwarten, das die vorgenannte Funktionalität realisiert.

II. Stand der Wissenschaft und Technik, bisherige Arbeiten

Derzeit verfügbare kommerzielle Retrieval- und Hypertextsysteme sind nicht flexibel genug, um Dokumentmengen nach unterschiedlichen Gesichtspunkten zu ordnen oder verschiedene Recherchestrategien zu unterstützen (s.a. W. Sander-Beuermann: Schatzsucher. Die Internet-Suchmaschinen der Zukunft. c't 13/98, S. 178). Retrievalsysteme bieten in der Regel nur einige Textsuchfunktionen sowie Suchmöglichkeiten für bibliographische Attribute. Fachspezifische Suchoperatoren (z.B. für technische Meßgrößen oder physikalische Reaktionsgleichungen) werden nicht angeboten und können auch nicht vom Anwender nachträglich integriert werden. Volltextsuche in strukturierten Dokumenten kann nur in der Form realisiert werden, indem entweder das vollständige Dokument als Antwort zurückgeliefert wird oder das Dokument in Teile zerlegt wird, die vom System aber als unabhängige Dokumente behandelt werden. Ferner bieten diese Systeme keine Hypertext-Funktionalität. Umgekehrt unterstützen Hypertext-Systeme zwar die Navigation in Dokumentaggregationen (und damit in Volltexten) und das Verfolgen referentieller Verknüpfungen. Leider ist hier aber die Retrievalfunktionalität unterentwickelt, und daher wird auch das Browsen in Attributwerten (z.B. Autorennamen, Klassifikationsschemata) sowie deren implizite Verknüpfung mit den zugehörigen Dokumenten nicht unterstützt.

Experimentelle Systeme bieten im Vergleich zu den kommerziellen in Teilbereichen meist bessere Lösungen an, doch konzentrieren sich solche Ansätze jeweils auf Einzelaspekte. Im Hinblick auf die Realisierung integrierter Systeme sind jedoch bislang keine Forschungsanstrengungen zu erkennen.

Literatur/Eigene Arbeiten:

Atkins, D.; Birmingham, W.; Durfee, E.; Glover, E.; Mullen, T.; Rundensteiner, E.; Soloway, E.; Vidal, J.; Wallace, R.; Wellman, M. (1996).
Toward Inquiry-Based Education Through Interacting Software Agents. Computer 29(5), pp 69-76.
Bates, M. (1989).
The design browsing and berrypicking techniques for the online search interface. Online review 13(5), pp 407-424.
Boles, D.; Dreger, M.; Großjohann, K.; Haber, C.; Kusserow, A.; Lohrum, S.; Menke, D.;Meyer, J.; Müller, G.; Weber, R. (1998).
The MeDoc System -- A Digital Publication and Reference Service for Computer Science. Lecture Notes in Computer Science, 1392, Springer, pp 13-20.
Bowman, M.; Danzig, P.; Hardy, D.; Manber, U.; Schwartz, M.; Wessels, D. (1994).
Harvest: A Scalable, Customizable Discovery and Access System. Technical Report CU-CS-732-94, University of Colorado, Department of Computer Science. ftp://ftp.cs.colorado.edu/pub/cs/techreports/schwartz/Harvest.Jour.ps.Z.
Chiaramella, Y.; Defude, B. (1987).
A Prototype of an Intelligent System for Information Retrieval: IOTA. Information Processing and Management 23(4), pp 285-303.
Fuhr, N.; Gövert, N.; Rölleke, T. (1998).
DOLORES: A System for Logic-Based Retrieval of Multimedia Objects. In: Proceedings of the21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, New York. (http://amaunet.cs.uni-dortmund.de/ir/reports/98/)
Kappe, F.; Maurer, H.; Sherbakov, N. (1993).
Hyper-G - A Universal Hypermedia System. Journal of Educational Multimedia and Hypermedia2(1), pp 39-66.
Navarro, G.; Baeza-Yates, R. (1997).
Proximal nodes: a model to query document databases by content and structure. ACM Transactions on Information Systems 15(4), pp 400-435.
Röscheisen, M.; Baldonado, M.; Chang, K.; Gravano, L.; Ketchpel, S.; Paepcke, A. (1998).
The Stanford InfoBus and Its Service Layers: Augmenting the Internet with Higher-Level Information Management Protocols. Lecture Notes in Computer Science, 1392, Springer.

Judith Plümer, Roland Schwänzl:
Harvesting Mathematics, Euromath Bulletin Vol.1, No. 2, 1996.
Judith Plümer, Roland Schwänzl:
A Mathematics Preprint Index - DC in an application
http://www.dstc.edu.au/DC4/roland/
Roland Schwänzl:
Mathematics MetaData - Dublin Core is the Wheel,
http://www .mathematik.uni-osnabrueck.de/projects/groe.ps.gz

(Informationsrecherche und weitere Arbeiten des Antragstellers in Anlage)

III. Ausführliche Beschreibung des Arbeitsplans

Vorhabenbezogene Ressourcenplanung, Meilensteinplanung
(Arbeitsplan)
6 MonateDoBroker: Einbau Suchmaschine WAIT in Harvest statt glimpse. Ersetzt internes Format des Brokers (SOIF) durch wählbare XML-DTD.
Anpassung der Kommunikation von Gatherer/Extraktor und Broker an das XML Format RDF. Schnittstellenbeschreibung.
Os Gatherer: Evaluation des Harvest-ng Gatherers hinsichtlich Plattformunabhängigkeit.
Extractor: SOIF -> RDF Embedding (verlustfrei) Weiternutzbarkeit der Harvest Summarizer unter WAIT.
Os / ZIBGatherer/Extractor: RDF -> SOIF flattening (verlustbehaftet): Interoperabilität mit SOIF basieren Harvestsystemen.
ZIBExtractor: Genuiner HTML 4.0 -> RDF Summarizer. Evaluation von Harvest-ng Summarizern
[Retrievalnukleus an AP 6/9 zur Speicherung von und Suche in RDF-MetaDaten]
6 MonateDoBroker: Browsen in Attributwerten und Verzweigen zu den zugehörigen Dokumenten (Autorennamen, Klassifikationen); Flexible Textsuche; Suchen in MetaDaten: Suchoperatoren für unterschiedliche Datentypen.
OsGatherer: MetaDatenverfolgung: Rekursive Auflösung von Hyperlinkreferenzen in DC.Relation und DC.Identifier. RDF Schema Erkennung, Übersetzungswerkzeug für Schemes (dabei: Dumpdown und stripping). Genuiner (parsed) RDF Transport.
ZIBExtractor: TeX (speziell BiBTeX) -> RDF Summarizer.
[Prototyp an AP 6/9 zur Evaluation]
2 MonateDo / Os / ZIBRevision des Retrievalnucleus nach Feedback durch Test auf den unterschiedlichen Dokumententypen in AP 6 und AP 9.
6 MonateDoBroker: Ähnlichkeitssuche; Volltext-Retrieval: Suche nach relevanten Dokumentteilen, Suche in Dokumentstrukturen; Browsen: Navigation zwischen MetaDaten und Dokumenten, Suche nach benutzerdefinierten Kriterien
OsGatherer: Join von MetaDaten und (automatischen Volltextextracten längs DC.Identifier. MetaDatenannotation bei Doubletten. Empfang von push (authentifizierter Provider-seitiger Anstoß: Push-Modul, Inkrementalität der (neuen) Funktionen, verträglich mit Channels.)
ZIB Extractor: MathML -> RDF. Einbau des non-mark up Summarizer tools von AP 11
[Erweiterter Prototyp an AP 6/9 zur Evaluation]
2 MonateDoBroker: Browsen in aggregierten Dokumenten, referentiellen Verknüpfungen. Automatische Klassifikation.
OsGatherer: PushModul zur (Re)Konfiguration des Gatherers.
ZIBExtractor für OpenMath Content Dictionaries.
2 MonateDo / Os / ZIBDokumentation und Bug-fixes des Retrievalsystems.

IV. Verwertungsplan in Anlage

V. Arbeitsteilung/Zusammenarbeit mit Dritten
(Organisationsform:)

Die Leitung des Arbeitspaketes übernimmt die Universität Dortmund. Die Arbeitsgruppe Fuhr enwickelt dort das integrierte Retrieval- und Hypertextsystem.
Die Gatherer-Komponente wird in Osnabrück realisiert, und die Extraktor-Komponente wird gemeinsam von der Universität Osnabrück und dem ZIB Berlin bearbeitet.
Die Entwicklung im Arbetispaket wird durch vierteljährliche abwechselnd an den Standorten stattfindenden Arbeitstreffen synchronisiert.
Der Weiterentwicklung SOIF basierter Harvestsysteme soll während der Projektlaufzeit besonderes Augenmerk geschenkt werden. Hierzu werden Arbeitsbesuche von Projektmitarbeitern bei entsprechenden Vorhaben (Edinburgh, Lund) durchgeführt

VI. Notwendigkeit der Zuwendungen
(Förderbedarf)

Aus dem Arbeitsplan ergibt sich der folgende Förderbedarf

Die Laufzeit dieses Arbeitspaktes soll zwei Jahre betragen.