Global-Info

SFM Inhaltserschließung

CARMEN

Content Analysis, Retrieval and Metadata: Effective Networking

Inhaltsverzeichnis

I Übersicht über das Projekt

1.
Gesamtziel, Abstract
2.
Bezug zu den förderpolitischen Zielen von Global-Info
3.
Organisatorische Angaben
3.1.
Antragszeitraum
3.2
Antragstellerkonsortium
3.3
Übersicht über die Arbeitspakete
3.4
Schnittstellen zu anderen Anträgen
3.5
Übersicht über beantragte Mittel

II Darstellung des Projekts

1.
Wissenschaftliche Zielsetzung und State-of-the-Art
1.1.Metadaten
1.1.1. Problemstellung, State-of-the-Art und inhaltliche Zielsetzung
1.1.2. Überblick Arbeitspakete Metadaten
1.2.
Heterogenitätsbehandlung
1.2.1. Problemstellung und State-of-the-Art
1.2.2 Überblick Arbeitspakete Heterogenitätsbehandlung
1.3. Retrieval für strukturierte Dokumente mit Metadaten und heterogene Datentypen
1.3.1. Problemstellung und State-of-the-Art
1.3.2. Überblick Arbeitspakete Retrieval
1.4. Fazit

2.
Technische Arbeitsziele
2.1.
Systemkomponenten
2.2.
Datengrundlage

3.
Arbeitspakete

I Übersicht über das Projekt

1. Gesamtziel, Abstract

Der Schwerpunkt der Arbeiten von CARMEN liegt auf der Weiterentwicklung der Inhaltserschließung durch neue Verfahrenstechniken mit starken Verbindungen zum Retrieval.

Bemühungen, die Homogenität und Konsistenz in der heutigen dezentralen Informationswelt herzustellen, setzen auf die Schaffung geeigneter Informationssysteme für verteilte Datenbestände. Häufig wird dabei versucht, die Probleme technikorientiert zu lösen, indem physikalisch auf die verschiedenen Dokumentenräume gleichzeitig zugegriffen werden kann. Das reicht jedoch nicht aus: Das Hauptproblem der inhaltlichen und konzeptuellen Differenz zwischen den einzelnen Datenbeständen ist damit noch nicht gelöst.
Neue Problemlösungen und Weiterentwicklungen sind deshalb in dieser SFM in drei Bereichen vorgesehen:

Die drei Arbeitsbereiche hängen eng zusammen. Durch die Fortentwicklung im Bereich der Metadaten soll einerseits die verlorengegangene Konsistenz partiell wiederhergestellt und auf eine den neuen Medien gerechte Basis gestellt werden. Andererseits sollen -- gleichsam in Form einer ``Zangenbewegung'' -- mit Verfahren zur Behandlung von Heterogenität Dokumente unterschiedlichen Niveaus der Datenrelevanz und Inhaltserschließung aufeinander bezogen (vgl. II. 1.2.1) und retrievalseitig durch ein Rechercheverfahren ergänzt werden, das den unterschiedlichen Datentypen mit ihren Metadatenformaten und einer starken textuellen Strukturiertheit (XML-Formate) gerecht wird.
Dabei sind verschiedene Sichtweisen auf die Recherche notwendig, wie Hypertextbrowsen, Volltextsuche oder Dokumenten-Ähnlichkeitssuche. Weder heutige Hypertext- noch kommerziell zur Verfügung stehende Textretrievalsysteme leisten dies, weshalb Weiterentwicklungen notwendig werden. Diese beziehen bestehende Systeme mit ein, wo immer dies möglich ist (Integration mit Harvest).
Prototypische Installationen machen den durch Teilvorhaben erzielten Fortschritt im Zusammenhang sicht- und evaluierbar.

Ausgangssituation

Benutzer informationeller Dienste stehen heute einem hochgradig dezentralisierten und heterogenen Dokumentenraum gegenüber.

Neben die traditionellen Anbieter von Informationen, den Verlagen mit ihren Printmedien, den Bibliotheken, die ihre Buchbestände nach intellektuell vergebenen Klassifikationen erschließen und den Fachinformationszentren, die ihre Datenbanken über Hosts anbieten, sind verstärkt die Wissenschaftler selbst getreten, die in all diesen Bereichen über das WWW eigenständige Dienste unterschiedlichster Abdeckung, Relevanz und Erschließungsverfahren entwickeln.
Ein Ergebnis der wachsenden Zahl von Informationsanbietern sind die unterschiedlichsten Konsistenzbrüche:

Kaum jemand hängt heute noch der Vorstellung nach, der Dokumentenraum ließe sich organisatorisch wieder auf einige wenige Mitspieler reduzieren oder über ein hierarchisch organisiertes Modell der Kooperation gestalten. Ganz im Gegenteil, die heutigen Vorstellungen gehen von einer noch stärkeren Dezentralisierung bei der Dokumenterstellung, -erschließung und -verteilung aus, wodurch die "anarchischen Tendenzen" weiter zunehmen.
Im Bereich der Dokumentenformate hingegen vollziehen sich gegenwärtig wesentliche Entwicklungen (XML), die für das Dokument selbst ein wesentliches "Mehr" an Struktur bringen und zur qualifizierten Inhaltserschließung genutzt werden können.

Der Benutzer wird trotz solcher Probleme auf alle Dokumentenbestände zugreifen wollen, gleich nach welchen Verfahren sie erschlossen oder in welchem System sie angeboten werden. Er hält auch in der Welt dezentralisierter, inhomogener Dokumentenbestände die Forderung an die Systementwickler aufrecht, dafür zu sorgen, daß er

bekommt, die seinem Informationsbedürfnis entsprechen.
Ziel der SFM CARMEN ist es deshalb, dieser Problemstellung auf der Basis eines exemplarischen Datenpools vor allem aus mathematischen, physikalischen und sozialwissenschaftlichen textuellen Informationen auf Servern von Großverlagen, Universitäten, Bibliotheken, fachgebietsorientierten Informationsservicestellen und Fachinformationszentren nachzugehen. Grundlage ist eine polyzentrische Struktur der Informationsversorgung mit Servern an den verschiedenen Standorten der beteiligten Insitutionen. Exemplarisch soll ein verteiltes Informationssystem realisiert werden, das eine sinnvolle Recherche der verteilten Informationsbestände verschiedener Datentypen ermöglicht.

Metadaten

Metadaten sind eine verabredete Form, bestimmte Merkmale eines Dokumentenbestandes bei den eigenen Daten auszuweisen; sie unterstützen die technische und konzeptuelle Austauschbarkeit. Ausgangspunkt ist die Dublin Core (DC) Initiative; es sind jedoch weitere Arbeiten im konzeptionellen Bereich wie im Hinblick auf die notwendigen Werkzeuge (semantische Umsetzung und syntaktische Realisierung) erforderlich. Proprietäre Metadaten-Konzepte werden abgelehnt.

Konzeptuelle Weiterentwicklungen erfolgen für Metadaten für Terms and Conditions und für die Archivierung (AP 2/5).

In einer Reihe von Arbeitspaketen werden konkrete Werkzeuge als Prototypen zur Erzeugung und Verwendung von Metadaten erarbeitet:
in AP 1 Werkzeuge zur Erzeugung (Metamaker) mit Dokumenten upload sowie Methoden der Authentifizierung (digitale Signaturen), in AP 4 Werkzeuge zur Verbesserung der formalen Identifikation (Persistent Identifiers), in AP 6 Tools für die Verbesserung von Indexierung und Vernetzung.

Heterogenitätsbehandlung

Normierungsbemühungen wie der DC sind eine Voraussetzung für anbieterübergreifende Suchprozesse im heterogenen Datenraum. Trotz freiwilliger Absprachen aller am Informationsprozeß Beteiligten ist jedoch eine durchgehende Homogentität der Daten nicht herzustellen. Der verbleibenden und unvermeidlichen Heterogenität muß daher durch verschiedene Strategien wie die Entwicklung von Transferkonkordanzen verschiedener Klassifikationen, quantitativ-statistischer Komponenten oder deduktiver Transferansätze begegnet werden. Dies geschieht schwerpunktmäßig in zwei Arbeitspaketen, AP 11 und AP 12.

AP11 analysiert die zu integrierenden Textgrundlagen und realisiert entsprechende Algorithmen zu Behandlung der Heterogenität. Zwischen den einzelnen Datentypen (z.B. Literaturdatenbanken und Internetquellen) sind aufeinander abgestimmte Transfermodule zu spezifizieren, die drei Methodenklassen zuzuordnen sind:

Da der personalintensive detaillierte Aufbau der Crosskonkordanzen zu Klassifikationen und Thesauri die Arbeitsorganisation von AP 11 sprengen würde, wird ihre Erstellung in AP 12 durchgeführt.

In AP11 entwickelte Transfermodule finden Eingang in AP 9, das die Verbindung zweier Fächer exemplarisch behandelt.

Transfermodule basierend auf quantitativ - statistischen Methoden werden in AP 7 in das Retrievalsystem eingebaut und in den AP 6 und 9 getestet und angewandt.

Retrieval für strukturierte Dokumente mit Metadaten und heterogenen Datentypen

Viele heute eingesetzte Retrievalverfahren behandeln Dokumente als unstrukturierte Textblöcke. Metadaten werden von Harvest nur in HTML 2.0-Kodierung erkannt. Daher sind diese Systeme für die Dokumentenrecherche nur bedingt geeignet.
Daher soll eine Retrievalkomponente entwickelt werden, die ein Retrieval auf Metadaten, auf Datensätzen mit XML-Struktur, Suchfunktionen für verschiedene Datentypen, Klassifikationen und Thesauri, Ähnlichkeitssuche, strukturorientierte Suche in Volltextdokumenten, Navigation in Hypertextstrukturen und automatische Klassifikation umfaßt.
Ergänzt werden soll dies durch eine Gathering-Komponente, die auf dem derzeitigen Harvest - Gatherer aufbaut, sowie eine Extraktorkomponente, die dazu dient, Metadaten aus unterschiedlichen Dokumentenformaten zu extrahieren.

Technische Arbeitsziele

Die Mehrzahl der Arbeitspakete führt zu testbaren Prototypen, die sich (exemplarisch in AP 6 realisiert) zu einem lauffähigen Gesamtsystem CARMEN verbinden.

Als Datengrundlage für Entwicklungen dient ein breites Spektrum sachlich hoch qualifizierter Quellen vor allem aus den Fächern Mathematik, Physik und Sozialwissenschaften.

2. Bezug zu den förderpolitischen Zielen von Global-Info

Die SFM Inhaltserschließung ist als Element eines "virtuellen Hauses" von Global-Info zu sehen, in dem entsprechend einer Global-Info Gesamtarchitektur die folgenden Aspekte zusammenwirken:

In solch einem "virtuellen Haus" sind alle Komponenten eng miteinander verbunden und voneinander abhängig. Dies betrifft vor allem die Elemente Inhaltserschließung und Retrieval, die den Schwerpunkt von CARMEN bilden. So lassen sich Maßnahmen auf der Seite der Inhaltserschließung häufig gegenüber solchen auf der Rechercheseite austauschen. Eine bestimmte Art der Inhaltserschließung wird eventuell nur gewählt, um den Retrievalalgorithmus effizient gestalten zu können. Ein einfaches Beispiel ist die Trunkierungsfunktion; sie wird weitgehend überflüssig, wenn Kompositazerlegung und Grundformenreduktion bei der Inhaltserschließung eingesetzt werden. Kompositazerlegung und Grundformenreduktion lassen sich aber auch durch äquivalente Generierungsverfahren auf der Rechercheseite ersetzen. Ob intern ein Algorithmus das Suchwort des Benutzers zu allen Wortformen expandiert oder ob die Wortformen des Dokuments bei der Deskriptorenvergabe auf Grundformen reduziert werden, bemerkt der Benutzer im Idealfall nicht.

Die SFM CARMEN ist so konstruiert, daß andere andere Projekte und SFM die hier schwerpunktmäßig entwickelten Bausteine übernehmen können. Die Architektur wird zudem so angelegt, daß außerhalb von CARMEN entwickelte Retrievaltechniken als Alternativen zu der in CARMEN entwickelten Retrievalkomponente, die den Schwerpunkt auf strukturierte Daten verschiedenen Datentyps legt, eingefügt werden können.

Trotz der gewählten Schwerpunktsetzung und der Betonung eines "Baukastensystems" für Global-Info liegt die SFM nicht horizontal (im Sinne der obigen Gesamtarchitektur von Global-Info) zum gesamten informationellen Prozeß, sondern realisiert vertikal ein für den gewählten Datenbereich voll funktionsfähiges Informationssystem mit den Komponenten Datenerfassung, Datenaufbereitung, Speicherung, Erschließung und Retrieval. Es wird in dieser Form bei allen an Global - Info beteiligten Gruppen experimentell einsatzfähig sein.

Die SFM verbindet mehrere Anwendungsfelder, damit die gefundenen Lösungen nicht nur für einen Bereich Gültigkeit haben. Elektronische Materialien der Verlagsserver, der Informationsservicestellen, der Bibliotheken und die WWW - Angebote der Wissenschaftler bilden den generellen Hintergrund, der mit drei spezifischen Anwendungsfeldern - Informationen aus den Bereichen Mathematik, Physik und Sozialwissenschaften - vertieft wird.

Die SFM kommt der weiteren Forderung nach, möglichst viele der bei Global-Info zusammenwirkenden Gruppen in einer SFM miteinander zu verbinden: An der SFM beteiligen sich neben Universitäten (Wissenschaftler als Autoren, Nutzer und Entwickler), Verlage (als Distributoren und Anbieter hochqualifizierter Inhalte) sowie Bibliotheken und Informationszentren als Mittler, also alle relevanten Gruppierungen.


3. Organisatorische Angaben

3.1 Antragszeitraum: 1.10.1999 - 30.9.2001

Der Förderzeitraum für Personal verschiebt sich für AP 9 um ein halbes Jahr wegen notwendiger Vorarbeiten in AP 12 nach hinten. Entsprechendes gilt für AP 11. Hier soll die Verschiebung drei Monate betragen.

3.2 Antragstellerkonsortium

Name Institution email Telefon
Vorprojekte Universitäten
B. Diekmann
E.R. Hilf
T. Severiens
U Oldenburg diekmann@bis.uni-oldenburg.de
hilf@
merlin.physik.uni-oldenburg.de
severien@uni-oldenburg.de
0441/ 798 -4045
0441/ 798 -2543
0441/ 798 -3465
E. Cordes
J. Plümer
R. Schwänzl
H. Zillmann
U Osnabrück cordes@fsub1.ub.uni-osnabrueck.de
roland@mathematik.uni-osnabrueck.de
zilmann@fsub1.ub.uni-osnabrueck.de
0541/ 969 -4319
0541/ 969 -2526
0541/969 -2531
0541/ 969 -4359
F. Geißelmann
F. Wünsch
K. Barbey
FH/U Regensburg friedrich.geisselmann@
bibliothek.uni-regensburg.de
fritz.wuensch@
physik.uni-regensburg.de
klaus.barbey@
mathematik.uni-regensburg.de
0941/ 943 -3900
0941/ 943 -2069
0941/ 943 -2796
Vorprojekte Verlage
E.Budrich Leske & Budrich Lesbudpubl@aol.com 02171/ 49070
M. Piotrowski
M. Feith
F. Schmidt
W. Schwab
Springer Verlag m.piotrowski@springer.de
feith@springer.de
f.schmidt@springer.de
schwab@springer.de
06221/ 487 -303
06221/ 487 -623
06221/ 487 -236
06221/ 487 -314
Interessenbekunder
J. Krause Universität Koblenz, Institut für Informatik/ InformationsZentrum Sozialwissenschaften Bonn
jk@bonn.iz-soz.de 0228/ 2281 -145
C.Hengel-Dittrich DDB Frankfurt hengel@poppix.dbf.ddb.de 069/ 1525-1401
A. Botte Deutsches Institut für internationale pädagogische Forschung, Frankfurt/M. FIS-Bildung@dipf.de 069/ 24708 -331
H.-J. Becker
N. Lossau
F. Klaproth
W. Schwartz
SUB Göttingen becker@mail.sub.uni-goettingen.de
lossau@mail.sub.uni-goettingen.de
klaproth@mail.sub.uni-goettingen.de
orient@mail.sub.uni-goettingen.de
0551/ 39 -5230
0551/ 39 -5217
0551/ 39 -5228
0551/ 39 -5218
M. Müller-Kammin TIB Hannover michael.mueller@TIB.uni-hannover.de 0511/ 7623412
O.Ninnemann,
G.F.Schultheiß
C.Ziegler
FIZ Karlsruhe olaf@zblmath.fiz-karlsruhe.de
gfs@fiz-karlsruhe.de
cdz@zblmath.FIZ-Karlsruhe.DE
030/ 3999 -3411
07247/ 808 -101
030/ 3999 -3411/
Experten der Fachgesellschaften
W. Dalitz ZIB Berlin Mathematik dalitz@zib.de 030/ 84185 -201
N. Fuhr U Dortmund Informatik fuhr@cs.uni-dortmund.de 0231/ 755 -2045
M. Kaplan TU München Mathematik kaplan@mathematik.tu-muenchen.de 089/ 28924209
Weitere Beteiligte
D. Rusch-Feja MPIB Berlin ruschfeja@mpib-berlin.mpg.de 030/ 82406 -30
K. Bierstedt U Paderborn klausd@
uni-paderborn.de
05251/ 602628
K.Großjohann U Dortmund Informatik Kai.Grossjohann@
cs.uni-dortmund.de
0231/ 755 -2045


3.3 Übersicht über die Arbeitspakete

AP 1 Digitale Signaturen und Metamaker mit Dokumentenupload für ein verteiltes Informationssystem
AP 2/5 Metadaten für Terms and Conditions/Archivierung
AP 4 Persistent Identifiers and Metadata Management in Science
AP 6 Metadata based Indexing of Scientific Resources
AP 7 A Document Referencing and Linking System
AP 9 Fachübergreifende Informationssysteme
AP 11 Heterogenitätsbehandlung bei textueller Information verschiedener Datentypen und Inhaltserschließungsverfahren
AP 12 Konkordanz von Klassifikationen und Thesauri


3.4 Schnittstellen zu anderen Anträgen

WEP

Relevant für WEP sind alle Arbeitspakete, die sich mit Metadaten beschäftigen, insbesondere AP 1 und AP 2/5.

SFM 9

Relevant für SFM 9 ist insbesondere Arbeitspaket 2/5.

3.5 Übersicht über beantragte Mittel

Antragsteller Arbeits-
paket
Institution Personal (Stellen/ Jahr) SHK (Anzahl/ Jahr) Reisekosten (DM/ Jahr) Sach-
mittel (DM)
Diekmann/ Hilf/ Severiens 1, 4, 9 U Oldenburg 1,5 0,5 7000 5000
Cordes/Plümer/Schwänzl/ Zillmann 6,7,9,11 U Osnabrück 2,5   8000 2000
Geißelmann/ Wünsch/ Barbey 11,12 FH/U Regensburg 1,0   3000  
Feith/ Piotrowski/ Schwab/ Schmidt 2/5,6 Springer 0,35   5000 2000
Krause 11,12 IZ Bonn /U Koblenz 1,5   4000  
Hengel-Dittrich 4,12 DDB Frankfurt/M. 1,0 0,5 4000  
Becker/ Lossau/ Klaproth/ Schwartz 2/5,4 SUB Göttingen 1,0 2,0 5000 2000
Müller-Kammin 4 TIB Hannover   0,5 500  
Schultheiß/ Ninnemann/ Ziegler 4 FIZ Karlsruhe 0,5   2000  
Dalitz 7 ZIB Berlin 0,5   3000  
Fuhr/Großjohann 7 U Dortmund 1,5   3000  
Kaplan 1,2/5 TU München 0,5 0,5 4000 6000
Botte 12 DIPF Frankfurt/M.   0,5 1000  
Rusch-Feja 12 MPIB Berlin     1000  
Budrich 12 Leske+Budrich     500  
Bierstedt 9 U Paderborn     1500  
SUMME     11,85 4,5 52500 17000




II Darstellung des Projekts

1. Wissenschaftliche Zielsetzung und State-of-the-Art

Bemühungen, die Homogenität und Konsistenz in der heutigen dezentralen Informationswelt herzustellen, setzen auf die Schaffung geeigneter Informationssysteme, die mit verteilten Datenbeständen effizient umgehen können. Oft steht dieses Vorgehen für eine rein technikorientierte Sichtweise von Problemlösungen. Man sorgt dafür, daß physikalisch auf die verschiedenen Dokumentenräume gleichzeitig zugegriffen werden kann und daß dies effizient geschieht. Diese technikorientierten Lösungen des Problems dezentraler Dokumentenräume sind eine unabdingbare Voraussetzung, lösen jedoch das Hauptproblem der inhaltlichen und konzeptuellen Differenzen zwischen den einzelnen Dokumentenbeständen noch nicht.

Neue Problemlösungen und die Weiterentwicklungen sind deshalb in drei Bereichen vorgesehen:

1.1 Metadaten

1.1.1. Problemstellung, State-of-the-Art und inhaltliche Zielsetzung

Einen Schritt weiter als die rein technikorientierte Sichtweise gehen die Ansätze zur Einführung von Metadaten. Metadaten sind Übereinkünfte, bestimmte Merkmale eines Dokumentbestandes in einer verabredeten Form bei den eigenen Daten auszuweisen, wie verschieden sie in bezug auf andere Merkmale auch immer sein mögen. Metadaten unterstützen die technische und konzeptuelle Austauschbarkeit. Sie eröffnen erfolgversprechende Ansätze zum Resource Discovery, zur inhaltlichen Erschließung aktueller relevanter Webinhalte (Abstracting/Indexing) und ihrer Vernetzung. Besondere Überlegungen sind bei der Archivierung elektronischen Materials erforderlich. Durchgängige Konzepte zur Konstruktion und Nutzung von Metadaten versprechen eine Minimierung von Verlusten, die derzeit durch Medienbrüche bei der Datenweitergabe in der Publikationskette auftreten.

Ausgangspunkt für Metadaten im Bereich des Resource Discovery sind die Überlegungen der Dublin Core (DC) Initiative. Es sind jedoch selbst in diesem Bereich weitere Arbeiten sowohl im konzeptionellen Bereich, als auch im Hinblick auf notwendige Werkzeuge zu erledigen, bis Metadaten ihre Aufgabe in der neuen polyzentrischen Welt der Informationsversorgung im erforderlichen Umfang erfüllen können. Kenntnisse über die Diskussionen, die Anwendung und die Umsetzung der Metadaten-Strukturen sind zu vermitteln.

Ein wichtiges Element ist zudem die Forderung, einen Teil der Metadaten (halb)automatisch aus vorgegebenen Dokumenten bestimmen zu können.
Die SFM will im Zusammenhang mit Metadaten folgende Aspekte behandeln:

1.1.2. Überblick Arbeitspakete Metadaten

Die Arbeitspakete spiegeln zum einen zuvor skizzierte Entwicklungsbedürfnisse wieder, zum anderen aber auch die Überprüfung der Wirksamkeit im Rahmen prototypischer Installationen.

1.2 Heterogenitätsbehandlung

1.2.1. Problemstellung und State-of-the-Art

Normierungsbemühungen wie der DC und Initiativen zur Akzeptanz und Verbreitung von Metadaten sind eine Voraussetzung für anbieterübergreifende Suchprozesse in einer täglich dezentraler werdenden Informationswelt. Sie versuchen, die verlorengegangene Datenhomogenität durch freiwillige Absprachen aller am Informationsprozeß Beteiligter partiell wiederherzustellen.
Dies kann jedoch nur teilweise gelingen. Ganz gleich, wie gut die Einführung von Metadaten in einem Fachgebiet gelingt, die verbleibende Heterogenität der verschiedenen Arten der Inhaltserschließung (automatische Indexierung, verschiedene Thesauri, verschiedene Klassifikationen, Unterschiede der erfaßten Kategorien, Verläßlichkeit der Daten) wird zu groß sein, um sie zu vernachlässigen.

Bis auf wenige Ausnahmen geschieht heute jedoch genau dies. Deskriptoren, die in unterschiedlichsten Inhaltserschließungszusammenhängen ermittelt wurden und deshalb eine jeweils unterschiedliche Bedeutung und Relevanz haben, werden von Suchmaschinen über (technisch) verteilten Datenbanken direkt verbunden, was ein Grund für die unbefriedigenden Ergebnisse heutiger Systemansätze ist.

Als Methodik bietet sich die Entwicklung von Transfermodulen als intelligente Agenten zwischen den verschieden Datentypen an, die die semantischen und pragmatischen Differenzen ber|cksichtigen und f|r den Rechercheprozeß adäquat auswerten. Dieses Konzept erleichtert es, so verschiedene Strategien wie die Entwicklung von Transferkonkordanzen verschiedener Klassifikationen und Thesauri, quantitativ-statistische Komponenten oder deduktive Transferansätze aufeinander zu beziehen. Wie dieser Transfer im Detail für spezifische Anwendungsfelder auszusehen hat, läßt sich aus dem State-of-the-Art jedoch nur sehr unvollständig ableiten. Hierfür neue Vorschläge empirisch aus dem Datenmaterial abzuleiten, ist eine zentrale Aufgabe der SFM. Methodisch kann partiell auf Vorarbeiten aus dem Projekt ELVIRA (gefördert vom BMWI) zurückgegriffen werden, das textuelle Information mit solchen aus Zeitreihendaten verschiedener Verbände integriert.

Ein wesentlicher Grund für die Heterogenität in polyzentrischen Strukturen verteilter Informationsbestände ist, daß es keine eindeutigen Gewichtungskriterien für die Auswahl von Informationsbeständen und deren Bewertung mehr gibt. Was für den einen Nutzer oder auch im Selbstverständnis einer wissenschaftlichen Disziplin am Rande des Interessenfeldes liegen mag, steht für den anderen Nutzer oder auch eine Teil- oder Nachbardisziplin im Zentrum der Aufmerksamkeit. Wissenschaftliche Fachliteratur einerseits und graue oder populäre Medien aus den umfangreichen praxisbezogenen Anwendungsbereichen der Wissenschaft andererseits können nicht von vornherein in ein hierarchisches Verhältnis der Über- und Unterordnung gesetzt werden. Beide Zugänge haben ihre jeweilige Berechtigung; ihre differierende Prioritätensetzung und die unterschiedlichen Nutzergruppen müssen bedient werden. Hinzu kommt, daß ein möglichst hoher und durch entsprechende Aktivitäten in den Fachmilieus sukzessive steigender Grad der Selbsterschließung von Dokumenten durch ihre Erzeuger (z.B. Aufsatz- oder Buchautoren) angestrebt werden sollte, was in der Praxis ebenfalls zur Heterogenitätssteigerung beitragen kann.

1.2.2. Überblick Arbeitspakete Heterogenitätsbehandlung

Die drei Arbeitspakete AP9, AP11 und AP12 behandeln verschiedene Aspekte der Heterogenitätsproblematik.

Damit sind einige wesentliche Problemkreise der Heterogenitätsbehandlung abgedeckt. Sie versprechen in ihrer Gesamtheit eine tragfähige Lösung, die zu einer deutlichen Verbesserung der Rechercheleistung führen werden. Die Vorgehensweise und eingesetzte Methodik stellen sicher, daß die Realisierungschancen für Fortschritte bei der Homogenisierung der Daten hoch sind.

1.3 Retrieval für strukturierte Dokumente mit Metadaten und heterogene Datentypen

1.3.1. Problemstellung und State-of-the-Art

Viele heute praktisch eingesetzte Retrievalverfahren (insbesondere die WWW-Suchmaschinen und andere Web-basierte Suchsysteme wie z.B. Harvest) behandeln Dokumente als unstrukturierte Textblöcke. Metadaten werden von Harvest nur in HTML2.0 Kodierung erkannt. Daher sind diese Systeme für Dokumentrecherchen nur bedingt geeignet. In dem Maße, wie Metadaten und Volltexte mit reichhaltigerer Strukturierung bereitgestellt werden, wächst auch der Bedarf nach geeigneten Such- und Navigationshilfen, die unter Ausnutzung der explizit vorhandenen Struktur eine präzisere Recherche erlauben. Insbesondere sollen folgende Recherchestrategien unterstützt werden:

Um solche Recherchetaktiken zu unterstützen, muß ein Retrievalsystem zur Verfügung stehen, das strukturierte Dokumente und Metadaten verarbeiten kann und geeignete Such- und Navigationsfunktionen anbietet.

Aus vielfältigen Gründen (z.B. aus rechtlichen und wirtschaftlichen) können die Dokumente selbst häufig nicht an zentraler Stelle gespeichert werden. Daher sollen nur die Metadaten und die Indexierungsdaten in einer Datenbank, die Überblicke vermitteln soll, gespeichert werden. Um auf verteilt vorliegende Metadaten und Dokumente zugreifen zu können, muß eine Sammler-(Gathering-)Komponente bereitgestellt werden. Damit das System neben XML-basierten Dokumentformaten (wie z.B. MathML und CML) auch klassische Dokumentformate wie HTML, Postscript, PDF und LaTeX verarbeiten kann, muß ferner eine Extraktor-Komponente (Extractor/Summarizer) entwickelt werden, die die für die Indexierung benötigten Daten aus diesen Formaten extrahiert.

Die vorstehenden Anforderungen werden durch heute verfügbare Systeme nur äußerst unzureichend erfüllt.

Kommerzielle Retrievalsysteme unterstützen in der Regel nur unstrukturierte Dokumente mit Attributsätzen. Nur wenige Systeme bieten darüber hinaus auch die Möglichkeit der strukturorientierten Suche (z.B. in SGML-Dokumenten). Eine Volltextsuche wie oben beschrieben gibt es jedoch in keinem Fall. Ferner bieten diese Systeme nur wenige, vage Prädikate (z.B. nach phonetischer Ähnlichkeit von Autoren) und sind nicht erweiterbar, um fachspezifische Datentypen und Suchoperatoren zu integrieren (z.B. Suche nach Texten, in denen bestimmte technische Meßgrößen auftauchen). Auch was die Navigationsmöglichkeiten angeht, bieten diese Systeme - wenn überhaupt - nur eine äußerst unzureichende Unterstützung.

Die Navigationsmöglichkeiten stehen dagegen im Hypermedia-System Hyperwave im Vordergrund, wobei aber primär aggregierende Verknüpfungen unterstützt werden und andere Arten von Verknüpfungen nur hinsichtlich Ihrer Konsistenz überwacht werden. Insbesondere wird die Navigation zwischen Attributwerten und Dokumenten (z.B. Autorennnamen, Klassifikationen) nicht unterstützt. Auch die Retrievalfunktionalität unterstützt Strukturierung und Attribute kaum.

Im Bereich der Forschung wurde Volltextsuche bislang nur wenig untersucht. Im IOTA-Projekt wurde ein heuristischer Ansatz hierzu entwickelt. An der Universität Dortmund wird zur Zeit ein logikbasierter Ansatz verfolgt und prototypisch implementiert, das System ist aber praktisch noch nicht einsetzbar. Für die strukturorientierte Suche in Volltexten gibt es eine ganze Reihe von Ansätzen mit zugehörigen effizienten Implementierungen, doch berücksichtigt keiner davon die dem Textretrieval immanente Vagheit und Unsicherheit.

Bei der verteilten Suche im Internet sind die WWW-Suchmaschinen (die i.d.R. reine Textsuche in unstrukturierten Web-Dokumenten realisieren) besonders populär. Im Gebiet der Digitalen Bibliotheken werden vornehmlich Systeme entwickelt, die eine Suche in verteilten Datenbanken realisieren (wie etwa der Stanford Infobus, das University of Michigan Digital Library System und das im MeDoc-Projekt entwickelte IVS. Das Harvest-System setzt im Gegensatz zu diesen letztgenannten Systemen keine lokalen Datenbanken voraus, sondern benötigt nur einen Server, über den der Gatherer auf das Dokument zugreifen kann. Im Unterschied zu den WWW-Suchmaschinen kann eine ganze Reihe von Dokumentformaten verarbeitet werden, aus denen der Summarizer die Indexierungsdaten extrahiert, die dann der Retrievalkomponente zur Verfügung gestellt werden.

1.3.2. Überblick Arbeitspakete Retrieval (AP 7)

Zur Realisierung der hier angestrebten Funktionalität muß primär eine geeignete Retrievalkomponente entwickelt werden, die durch eine Gathering- und eine Extraktor-Komponente ergänzt werden muß.

Die Retrievalkomponente soll ausgehend von der in Dortmund vorhandenen Basis-Retrieval-Engine realisiert werden. Dabei sind folgende Funktionen zu realisieren:

Die Gathering-Komponente soll aufbauend auf dem derzeitigen Harvest-Gatherer entwickelt werden, wobei folgende Verbesserungen vorgesehen sind:

Die Extraktor-Komponente dient dazu, Metadaten aus unterschiedlichen Dokumentformaten zu extrahieren. (Da auch in näherer Zukunft ein Großteil der Dokumente nicht in XML vorliegen wird und um bereits existierende Dokumentbestände zu berücksichtigen, ist eine solche Komponente notwendig.) Hierbei wird von den Harvest-Summarizern für verschiedene Dokumentformate (Postscript, RTF, TeX, ASCII, troff, HTML) ausgegangen, die wie folgt verbessert werden sollen:

(Literaturhinweise zu 1.3 bei AP 7)

1.4 Fazit

Die "Zangenbewegung" der Konsistenzerhöhung durch Metadatenaktivitäten und Maßnahmen, die die verbleibende Heterogenität behandeln, wird somit durch Entwicklungen beim Retrieval ergänzt, die spezifische Problemstellungen wie Textstrukturierung und die Metadaten nutzen. So führt z.B. die Einführung von XML zu neuen Möglichkeiten, hierarchisch gestufte Texte probabilistisch zu indexieren. Die Grundgedanken von Global-Info setzen dabei voraus, daß CARMEN die Verbindung zu den bisher am Markt eingesetzten Verfahren berücksichtigt.

2. Technische Arbeitsziele

2.1. Systemkomponenten

Die Mehrzahl der AP führt zu testbaren Teil-Prototypen, die sich zu einem lauffähigen Gesamtsystem CARMEN verbinden. Das AP 2/5 liefert konzeptuelle Daten, die als Basis für die anderen Aktivitäten von CARMEN dienen.

Retrieval und Inhaltserschließung:

2.2. Datengrundlage

Die Sonderfördermaßnahme CARMEN wird ihr Datenmaterial aus einem breiten Spektrum sachlich hochqualifizierter Quellen beziehen.

Grundlegende Anwendungen hinsichtlich Metadaten/Indexierung werden über den naturwissenschaftlichen Bereich hinausgreifend durch Operationen auf Verlagsmaterialien gewonnen (z.B. MAJOUR-Header). Hinzu treten Daten aus dem bibliothekarischen Bereich.

Vertieft wendet sich CARMEN dem im wissenschaftlichen Bereich derzeit elektronisch anfallenden Dokumentenmaterial in seiner vollen Komplexität in den Fächgebieten Mathematik, Physik und Sozialwissenschaften zu.

Zu den Materialien tragen hier zusätzlich das Fachinformationszentrum Karlsruhe, das Informationszentrum Sozialwissenschaften (IZ) der GESIS, die Fachinformationssysteme MathNet und PhysNet sowie der verteilte Preprintdienst MPRESS bei. Damit stehen unter anderem in erheblichem Umfang Daten zur Verfügung, für die Methoden zur Heterogenitätsbehandlung nichttrivial angewandt, angepaßt und weiterentwickelt werden müssen.

Für die Entwicklung von Methoden und Verfahren ist die Wahl der Fächer exemplarisch zu sehen. Die starke Konzentration auf den mathematisch-physikalischen Bereich hat pragmatische Gründe, die aus dem Stand der Anwendung elektronischer Information und Kommunikation resultieren.

Hierauf basiert wesentlich der von allen an der Publikationskette beteiligten Gruppen getragene Wille, das Problem der Inhaltserschließung elektronischen wissenschaftlichen Materials in seiner Vielschichtigkeit an dieser Stelle zusammenwirkend anzugreifen.

Als Korrektiv bei der Generalisierung der vorgesehenen Entwicklungen dienen Dokumente aus den Sozialwissenschaften.


3. Arbeitspakete

AP 1 Digitale Signaturen und Metamaker mit Dokumentenupload für ein verteiltes Informationssystem
AP 2/5 Metadaten für Terms and Conditions/Archivierung
AP 4 Persistent Identifiers and Metadata Management in Science
AP 6 Metadata based Indexing of Scientific Resources
AP 7 A Document Referencing and Linking System
AP 9 Fachübergreifende Informationssysteme
AP 11 Heterogenitätsbehandlung bei textueller Information verschiedener Datentypen und Inhaltserschließungsverfahren
AP 12 Konkordanz von Klassifikationen und Thesauri