SFM Inhaltserschließung
I Übersicht über das Projekt
II Darstellung des Projekts
Der Schwerpunkt der Arbeiten von CARMEN liegt auf der Weiterentwicklung der Inhaltserschließung durch neue Verfahrenstechniken mit starken Verbindungen zum Retrieval.
Bemühungen, die Homogenität und Konsistenz in der heutigen
dezentralen Informationswelt herzustellen, setzen auf die Schaffung geeigneter
Informationssysteme für verteilte Datenbestände. Häufig
wird dabei versucht, die Probleme technikorientiert zu lösen, indem
physikalisch auf die verschiedenen Dokumentenräume gleichzeitig zugegriffen
werden kann. Das reicht jedoch nicht aus: Das Hauptproblem der inhaltlichen
und konzeptuellen Differenz zwischen den einzelnen Datenbeständen
ist damit noch nicht gelöst.
Neue Problemlösungen und Weiterentwicklungen sind deshalb in dieser
SFM in drei Bereichen vorgesehen:
Die drei Arbeitsbereiche hängen eng zusammen. Durch die
Fortentwicklung im Bereich der Metadaten soll einerseits die verlorengegangene
Konsistenz partiell wiederhergestellt
und auf eine den neuen Medien gerechte Basis gestellt
werden.
Andererseits sollen -- gleichsam in Form einer ``Zangenbewegung'' -- mit Verfahren zur Behandlung von Heterogenität
Dokumente unterschiedlichen Niveaus der
Datenrelevanz und Inhaltserschließung aufeinander bezogen (vgl. II. 1.2.1)
und
retrievalseitig durch ein Rechercheverfahren ergänzt werden,
das den unterschiedlichen
Datentypen mit ihren Metadatenformaten und einer starken textuellen Strukturiertheit
(XML-Formate) gerecht wird.
Dabei sind verschiedene Sichtweisen auf die Recherche notwendig,
wie Hypertextbrowsen, Volltextsuche oder Dokumenten-Ähnlichkeitssuche.
Weder heutige Hypertext- noch kommerziell zur Verfügung stehende Textretrievalsysteme
leisten dies, weshalb Weiterentwicklungen notwendig werden. Diese beziehen
bestehende Systeme mit ein, wo immer dies möglich ist (Integration
mit Harvest).
Prototypische Installationen machen den durch Teilvorhaben erzielten Fortschritt
im Zusammenhang sicht- und evaluierbar.
Ausgangssituation
Benutzer informationeller Dienste stehen heute einem hochgradig dezentralisierten und heterogenen Dokumentenraum gegenüber.

Neben die traditionellen Anbieter von Informationen, den Verlagen mit
ihren Printmedien, den Bibliotheken, die ihre Buchbestände nach intellektuell
vergebenen Klassifikationen erschließen und den Fachinformationszentren,
die ihre Datenbanken über Hosts anbieten, sind verstärkt die
Wissenschaftler selbst getreten, die in all diesen Bereichen über
das WWW eigenständige Dienste unterschiedlichster Abdeckung, Relevanz
und Erschließungsverfahren entwickeln.
Ein Ergebnis der wachsenden Zahl von Informationsanbietern sind die unterschiedlichsten
Konsistenzbrüche:
Relevante, qualitätskontrollierte Daten stehen neben irrelevanten und eventuell nachweislich falschen. Nur noch in abgegrenzten Teilbereichen sorgen Gutachtersysteme für eine Trennung von Ballast und potentiell erwünschter Information.
Ein Deskriptor A kann in einem solchem System die unterschiedlichsten Bedeutungen annehmen. Auch im engen Bereich der Fachinformation kann ein Deskriptor A, der aus einem hochrelevanten Dokumentenbestand, mit viel Aufwand intellektuell und qualitativ hochwertig ermittelt wurde, nicht mit dem Term A gleichgesetzt werden, den eine automatische Indexierung aus einem Randgebiet liefert.
Kaum jemand hängt heute noch der Vorstellung nach, der Dokumentenraum
ließe sich organisatorisch wieder auf einige wenige Mitspieler reduzieren
oder über ein hierarchisch organisiertes Modell der Kooperation gestalten.
Ganz im Gegenteil, die heutigen Vorstellungen gehen von einer noch stärkeren
Dezentralisierung bei der Dokumenterstellung, -erschließung und -verteilung
aus, wodurch die "anarchischen Tendenzen" weiter zunehmen.
Im Bereich der Dokumentenformate hingegen vollziehen sich gegenwärtig
wesentliche Entwicklungen (XML), die für das Dokument selbst ein wesentliches
"Mehr" an Struktur bringen und zur qualifizierten Inhaltserschließung
genutzt werden können.
Der Benutzer wird trotz solcher Probleme auf alle Dokumentenbestände zugreifen wollen, gleich nach welchen Verfahren sie erschlossen oder in welchem System sie angeboten werden. Er hält auch in der Welt dezentralisierter, inhomogener Dokumentenbestände die Forderung an die Systementwickler aufrecht, dafür zu sorgen, daß er
möglichst nur die relevanten Dokumente und
möglichst alle relevanten
bekommt, die seinem Informationsbedürfnis entsprechen.
Ziel der SFM CARMEN ist es deshalb, dieser Problemstellung auf der Basis eines exemplarischen
Datenpools vor allem aus mathematischen, physikalischen und sozialwissenschaftlichen textuellen Informationen auf
Servern von Großverlagen, Universitäten, Bibliotheken,
fachgebietsorientierten Informationsservicestellen
und Fachinformationszentren nachzugehen.
Grundlage ist eine polyzentrische
Struktur der Informationsversorgung mit Servern an den verschiedenen Standorten der beteiligten Insitutionen.
Exemplarisch soll
ein verteiltes Informationssystem realisiert werden,
das eine sinnvolle
Recherche der verteilten Informationsbestände verschiedener Datentypen
ermöglicht.
Metadaten
Metadaten sind eine verabredete Form, bestimmte Merkmale eines Dokumentenbestandes bei den eigenen Daten auszuweisen; sie unterstützen die technische und konzeptuelle Austauschbarkeit. Ausgangspunkt ist die Dublin Core (DC) Initiative; es sind jedoch weitere Arbeiten im konzeptionellen Bereich wie im Hinblick auf die notwendigen Werkzeuge (semantische Umsetzung und syntaktische Realisierung) erforderlich. Proprietäre Metadaten-Konzepte werden abgelehnt.Konzeptuelle Weiterentwicklungen erfolgen für Metadaten für Terms and Conditions und für die Archivierung (AP 2/5).
In einer Reihe von Arbeitspaketen werden konkrete
Werkzeuge als Prototypen zur Erzeugung und Verwendung von Metadaten erarbeitet:
in AP 1 Werkzeuge zur Erzeugung (Metamaker) mit Dokumenten upload sowie
Methoden der Authentifizierung (digitale Signaturen),
in AP 4 Werkzeuge zur Verbesserung der formalen Identifikation (Persistent
Identifiers),
in AP 6 Tools für die Verbesserung von Indexierung und Vernetzung.
Heterogenitätsbehandlung
Normierungsbemühungen wie der DC sind eine Voraussetzung für anbieterübergreifende Suchprozesse im heterogenen Datenraum. Trotz freiwilliger Absprachen aller am Informationsprozeß Beteiligten ist jedoch eine durchgehende Homogentität der Daten nicht herzustellen. Der verbleibenden und unvermeidlichen Heterogenität muß daher durch verschiedene Strategien wie die Entwicklung von Transferkonkordanzen verschiedener Klassifikationen, quantitativ-statistischer Komponenten oder deduktiver Transferansätze begegnet werden. Dies geschieht schwerpunktmäßig in zwei Arbeitspaketen, AP 11 und AP 12.
AP11 analysiert die zu integrierenden Textgrundlagen und realisiert entsprechende Algorithmen zu Behandlung der Heterogenität. Zwischen den einzelnen Datentypen (z.B. Literaturdatenbanken und Internetquellen) sind aufeinander abgestimmte Transfermodule zu spezifizieren, die drei Methodenklassen zuzuordnen sind:
Crosskonkordanzen und -klassifikationen als konzeptuell einfachste Form des Transfers, der aber nur bei auf der Basis des Wortschatzes generalisierbaren Relationen wirksam wird,
sowie quantitativ-statistische und deduktive Ansätze.
Da der personalintensive detaillierte Aufbau der Crosskonkordanzen zu Klassifikationen und Thesauri die Arbeitsorganisation von AP 11 sprengen würde, wird ihre Erstellung in AP 12 durchgeführt.
In AP11 entwickelte Transfermodule finden Eingang in AP 9, das die Verbindung zweier Fächer exemplarisch behandelt.
Transfermodule basierend auf quantitativ - statistischen Methoden werden in AP 7 in das Retrievalsystem eingebaut und in den AP 6 und 9 getestet und angewandt.
Retrieval für strukturierte Dokumente mit Metadaten und heterogenen Datentypen
Viele heute eingesetzte Retrievalverfahren behandeln Dokumente als unstrukturierte Textblöcke.
Metadaten werden von Harvest nur in HTML 2.0-Kodierung
erkannt. Daher sind diese Systeme für die Dokumentenrecherche nur bedingt
geeignet.
Daher soll eine Retrievalkomponente entwickelt werden, die ein Retrieval auf
Metadaten, auf Datensätzen mit XML-Struktur, Suchfunktionen für
verschiedene Datentypen, Klassifikationen und Thesauri,
Ähnlichkeitssuche, strukturorientierte Suche in Volltextdokumenten,
Navigation in Hypertextstrukturen und automatische Klassifikation umfaßt.
Ergänzt werden soll dies durch eine Gathering-Komponente, die auf dem
derzeitigen Harvest - Gatherer aufbaut, sowie eine Extraktorkomponente, die
dazu dient, Metadaten aus unterschiedlichen Dokumentenformaten zu extrahieren.
Technische Arbeitsziele
Die Mehrzahl der Arbeitspakete führt zu testbaren Prototypen, die sich (exemplarisch in AP 6 realisiert) zu einem lauffähigen Gesamtsystem CARMEN verbinden.
Als Datengrundlage für Entwicklungen dient ein breites Spektrum sachlich hoch qualifizierter Quellen vor allem aus den Fächern Mathematik, Physik und Sozialwissenschaften.
Die SFM Inhaltserschließung ist als Element eines "virtuellen Hauses" von Global-Info zu sehen, in dem entsprechend einer Global-Info Gesamtarchitektur die folgenden Aspekte zusammenwirken:
In solch einem "virtuellen Haus" sind alle Komponenten eng miteinander verbunden und voneinander abhängig. Dies betrifft vor allem die Elemente Inhaltserschließung und Retrieval, die den Schwerpunkt von CARMEN bilden. So lassen sich Maßnahmen auf der Seite der Inhaltserschließung häufig gegenüber solchen auf der Rechercheseite austauschen. Eine bestimmte Art der Inhaltserschließung wird eventuell nur gewählt, um den Retrievalalgorithmus effizient gestalten zu können. Ein einfaches Beispiel ist die Trunkierungsfunktion; sie wird weitgehend überflüssig, wenn Kompositazerlegung und Grundformenreduktion bei der Inhaltserschließung eingesetzt werden. Kompositazerlegung und Grundformenreduktion lassen sich aber auch durch äquivalente Generierungsverfahren auf der Rechercheseite ersetzen. Ob intern ein Algorithmus das Suchwort des Benutzers zu allen Wortformen expandiert oder ob die Wortformen des Dokuments bei der Deskriptorenvergabe auf Grundformen reduziert werden, bemerkt der Benutzer im Idealfall nicht.
Die SFM CARMEN ist so konstruiert, daß andere andere Projekte und SFM die hier schwerpunktmäßig entwickelten Bausteine übernehmen können. Die Architektur wird zudem so angelegt, daß außerhalb von CARMEN entwickelte Retrievaltechniken als Alternativen zu der in CARMEN entwickelten Retrievalkomponente, die den Schwerpunkt auf strukturierte Daten verschiedenen Datentyps legt, eingefügt werden können.
Trotz der gewählten Schwerpunktsetzung und der Betonung eines "Baukastensystems" für Global-Info liegt die SFM nicht horizontal (im Sinne der obigen Gesamtarchitektur von Global-Info) zum gesamten informationellen Prozeß, sondern realisiert vertikal ein für den gewählten Datenbereich voll funktionsfähiges Informationssystem mit den Komponenten Datenerfassung, Datenaufbereitung, Speicherung, Erschließung und Retrieval. Es wird in dieser Form bei allen an Global - Info beteiligten Gruppen experimentell einsatzfähig sein.
Die SFM verbindet mehrere Anwendungsfelder, damit die gefundenen Lösungen nicht nur für einen Bereich Gültigkeit haben. Elektronische Materialien der Verlagsserver, der Informationsservicestellen, der Bibliotheken und die WWW - Angebote der Wissenschaftler bilden den generellen Hintergrund, der mit drei spezifischen Anwendungsfeldern - Informationen aus den Bereichen Mathematik, Physik und Sozialwissenschaften - vertieft wird.
Die SFM kommt der weiteren Forderung nach, möglichst viele der bei Global-Info zusammenwirkenden Gruppen in einer SFM miteinander zu verbinden: An der SFM beteiligen sich neben Universitäten (Wissenschaftler als Autoren, Nutzer und Entwickler), Verlage (als Distributoren und Anbieter hochqualifizierter Inhalte) sowie Bibliotheken und Informationszentren als Mittler, also alle relevanten Gruppierungen.
Der Förderzeitraum für Personal verschiebt sich für AP 9 um ein halbes Jahr wegen notwendiger Vorarbeiten in AP 12 nach hinten. Entsprechendes gilt für AP 11. Hier soll die Verschiebung drei Monate betragen.
| Name | Institution | Telefon | |
|---|---|---|---|
| Vorprojekte Universitäten | |||
| B. Diekmann E.R. Hilf T. Severiens |
U Oldenburg | diekmann@bis.uni-oldenburg.de hilf@ merlin.physik.uni-oldenburg.de severien@uni-oldenburg.de |
0441/ 798 -4045 0441/ 798 -2543 0441/ 798 -3465 |
| E. Cordes J. Plümer R. Schwänzl H. Zillmann |
U Osnabrück | cordes@fsub1.ub.uni-osnabrueck.de roland@mathematik.uni-osnabrueck.de zilmann@fsub1.ub.uni-osnabrueck.de |
0541/ 969 -4319 0541/ 969 -2526 0541/969 -2531 0541/ 969 -4359 |
| F. Geißelmann F. Wünsch K. Barbey |
FH/U Regensburg | friedrich.geisselmann@ bibliothek.uni-regensburg.de fritz.wuensch@ physik.uni-regensburg.de klaus.barbey@ mathematik.uni-regensburg.de |
0941/ 943 -3900 0941/ 943 -2069 0941/ 943 -2796 |
| Vorprojekte Verlage | |||
| E.Budrich | Leske & Budrich | Lesbudpubl@aol.com | 02171/ 49070 |
| M. Piotrowski M. Feith F. Schmidt W. Schwab |
Springer Verlag | m.piotrowski@springer.de feith@springer.de f.schmidt@springer.de schwab@springer.de |
06221/ 487 -303 06221/ 487 -623 06221/ 487 -236 06221/ 487 -314 |
| Interessenbekunder | |||
| J. Krause | Universität Koblenz, Institut für Informatik/ InformationsZentrum
Sozialwissenschaften Bonn |
jk@bonn.iz-soz.de | 0228/ 2281 -145 |
| C.Hengel-Dittrich | DDB Frankfurt | hengel@poppix.dbf.ddb.de | 069/ 1525-1401 |
| A. Botte | Deutsches Institut für internationale pädagogische Forschung, Frankfurt/M. | FIS-Bildung@dipf.de | 069/ 24708 -331 |
| H.-J. Becker N. Lossau F. Klaproth W. Schwartz |
SUB Göttingen | becker@mail.sub.uni-goettingen.de lossau@mail.sub.uni-goettingen.de klaproth@mail.sub.uni-goettingen.de orient@mail.sub.uni-goettingen.de |
0551/ 39 -5230 0551/ 39 -5217 0551/ 39 -5228 0551/ 39 -5218 |
| M. Müller-Kammin | TIB Hannover | michael.mueller@TIB.uni-hannover.de | 0511/ 7623412 |
|
O.Ninnemann, G.F.Schultheiß C.Ziegler |
FIZ Karlsruhe |
olaf@zblmath.fiz-karlsruhe.de gfs@fiz-karlsruhe.de cdz@zblmath.FIZ-Karlsruhe.DE |
030/ 3999 -3411 07247/ 808 -101 030/ 3999 -3411/ |
| Experten der Fachgesellschaften | |||
| W. Dalitz | ZIB Berlin Mathematik | dalitz@zib.de | 030/ 84185 -201 |
| N. Fuhr | U Dortmund Informatik | fuhr@cs.uni-dortmund.de | 0231/ 755 -2045 |
| M. Kaplan | TU München Mathematik | kaplan@mathematik.tu-muenchen.de | 089/ 28924209 |
| Weitere Beteiligte | |||
| D. Rusch-Feja | MPIB Berlin | ruschfeja@mpib-berlin.mpg.de | 030/ 82406 -30 |
| K. Bierstedt | U Paderborn | klausd@ uni-paderborn.de |
05251/ 602628 |
| K.Großjohann | U Dortmund Informatik | Kai.Grossjohann@ cs.uni-dortmund.de |
0231/ 755 -2045 |
3.3 Übersicht über die Arbeitspakete
Relevant für WEP sind alle Arbeitspakete, die sich mit Metadaten beschäftigen, insbesondere AP 1 und AP 2/5.
SFM 9
Relevant für SFM 9 ist insbesondere Arbeitspaket 2/5.
| Antragsteller | Arbeits- paket |
Institution | Personal (Stellen/ Jahr) | SHK (Anzahl/ Jahr) | Reisekosten (DM/ Jahr) | Sach- mittel (DM) |
| Diekmann/ Hilf/ Severiens | 1, 4, 9 | U Oldenburg | 1,5 | 0,5 | 7000 | 5000 |
| Cordes/Plümer/Schwänzl/ Zillmann | 6,7,9,11 | U Osnabrück | 2,5 | 8000 | 2000 | |
| Geißelmann/ Wünsch/ Barbey | 11,12 | FH/U Regensburg | 1,0 | 3000 | ||
| Feith/ Piotrowski/ Schwab/ Schmidt | 2/5,6 | Springer | 0,35 | 5000 | 2000 | |
| Krause | 11,12 | IZ Bonn /U Koblenz | 1,5 | 4000 | ||
| Hengel-Dittrich | 4,12 | DDB Frankfurt/M. | 1,0 | 0,5 | 4000 | |
| Becker/ Lossau/ Klaproth/ Schwartz | 2/5,4 | SUB Göttingen | 1,0 | 2,0 | 5000 | 2000 |
| Müller-Kammin | 4 | TIB Hannover | 0,5 | 500 | ||
| Schultheiß/ Ninnemann/ Ziegler | 4 | FIZ Karlsruhe | 0,5 | 2000 | ||
| Dalitz | 7 | ZIB Berlin | 0,5 | 3000 | ||
| Fuhr/Großjohann | 7 | U Dortmund | 1,5 | 3000 | ||
| Kaplan | 1,2/5 | TU München | 0,5 | 0,5 | 4000 | 6000 |
| Botte | 12 | DIPF Frankfurt/M. | 0,5 | 1000 | ||
| Rusch-Feja | 12 | MPIB Berlin | 1000 | |||
| Budrich | 12 | Leske+Budrich | 500 | |||
| Bierstedt | 9 | U Paderborn | 1500 | |||
| SUMME | 11,85 | 4,5 | 52500 | 17000 |
Bemühungen, die Homogenität und Konsistenz in der heutigen dezentralen Informationswelt herzustellen, setzen auf die Schaffung geeigneter Informationssysteme, die mit verteilten Datenbeständen effizient umgehen können. Oft steht dieses Vorgehen für eine rein technikorientierte Sichtweise von Problemlösungen. Man sorgt dafür, daß physikalisch auf die verschiedenen Dokumentenräume gleichzeitig zugegriffen werden kann und daß dies effizient geschieht. Diese technikorientierten Lösungen des Problems dezentraler Dokumentenräume sind eine unabdingbare Voraussetzung, lösen jedoch das Hauptproblem der inhaltlichen und konzeptuellen Differenzen zwischen den einzelnen Dokumentenbeständen noch nicht.
Neue Problemlösungen und die Weiterentwicklungen sind deshalb in drei Bereichen vorgesehen:
Metadaten
Methoden des Umgangs mit der verbleibenden Heterogenität
Retrieval für strukturierte Dokumente mit Metadaten und heterogene Datentypen
1.1.1. Problemstellung, State-of-the-Art und inhaltliche Zielsetzung
Einen Schritt weiter als die rein technikorientierte Sichtweise gehen die Ansätze zur Einführung von Metadaten. Metadaten sind Übereinkünfte, bestimmte Merkmale eines Dokumentbestandes in einer verabredeten Form bei den eigenen Daten auszuweisen, wie verschieden sie in bezug auf andere Merkmale auch immer sein mögen. Metadaten unterstützen die technische und konzeptuelle Austauschbarkeit. Sie eröffnen erfolgversprechende Ansätze zum Resource Discovery, zur inhaltlichen Erschließung aktueller relevanter Webinhalte (Abstracting/Indexing) und ihrer Vernetzung. Besondere Überlegungen sind bei der Archivierung elektronischen Materials erforderlich. Durchgängige Konzepte zur Konstruktion und Nutzung von Metadaten versprechen eine Minimierung von Verlusten, die derzeit durch Medienbrüche bei der Datenweitergabe in der Publikationskette auftreten.
Ausgangspunkt für Metadaten im Bereich des Resource Discovery sind die Überlegungen der Dublin Core (DC) Initiative. Es sind jedoch selbst in diesem Bereich weitere Arbeiten sowohl im konzeptionellen Bereich, als auch im Hinblick auf notwendige Werkzeuge zu erledigen, bis Metadaten ihre Aufgabe in der neuen polyzentrischen Welt der Informationsversorgung im erforderlichen Umfang erfüllen können. Kenntnisse über die Diskussionen, die Anwendung und die Umsetzung der Metadaten-Strukturen sind zu vermitteln.
Ein wichtiges Element ist zudem die Forderung, einen Teil der Metadaten
(halb)automatisch aus vorgegebenen Dokumenten bestimmen zu können.
Die SFM will im Zusammenhang mit Metadaten folgende Aspekte behandeln:
Dokumentenbeschreibung/Inhaltliche Identifikation
Der Weg zu einem internationalen Metadaten-Standard zur Resource Discovery dokumentartiger Objekte wird von der Dublin Core Initiative beschritten. Alle Metadaten, die in Arbeitspakete für diesen Zweck eingebracht oder dort generiert werden, werden kompatibel zu Dublin Core sein. Gegebenenfalls werden entsprechende Transformationen entwickelt und zur Verfügung gestellt.
Um die Wirksamkeit der Dublin-Core-Entwicklungen zu erhöhen, werden Arbeiten durchgeführt, die im konkreten Kontext die semantische Umsetzung von Dublin Core und deren syntaktische Realisierung zum Ziel haben. Die Entwicklung proprietärer Metadaten-Konzepte wird im Hinblick auf die unmittelbare Gefahr verlorener Investitionen abgelehnt.
Das bei W3C spezifizierte Resource Description Framework (RDF) interpretiert Dublin Core als XML Namespace und scheint selbst als XML Anwendung reich genug zu sein, den semantischen Erfordernissen syntaktisch Rechnung zu tragen. Die bisher im deutschen Raum vorliegenden Implementationen von Dublin Core basieren sämtlich auf HTML und stoßen an die Grenzen ihrer Leistungsfähigkeit. Es sind geeignete Transformationen zu entwickeln.
In diesem Zusammenhang ist auch die aktive Mitarbeit an der Weiterentwicklung von Qualified Dublin Core, die frühzeitige Beachtung von Entwicklungen in der W3C-Metadata-Initiative bei Implementierungen zur Sicherung der Interoperabilität und die Entwicklung, gegebenenfalls die Anpassung von Erstellungswerkszeugen erforderlich.
Dublin Core sieht bewußt den Gebrauch von Thesauri und Klassifikationsschemata vor. Ihr Einsatz ist für die Verwertung eines Metadaten-Sets zur Inhaltserschließung von offensichtlichem Nutzen.
Die notwendige Entwicklung und Anwendung von Konkordanzen (Crosswalks) zwischen existierenden Thesauri/Klassifikationen insbesondere in fachübergreifenden Anwendungen werden Gegenstand in Arbeitspaketen sein. (Wir fassen diese Arbeiten als Bestandteil der Aufgaben zur Lösung verbleibender Heterogenität auf. Die zugeordneten Arbeitspakete werden daher in II.1.2.2. im einzelnen erläutert.)
Formale Identifikation
Bestandteil der Metadaten zur Resource Discovery sind formale Identifier. Neue Qualitäten gegenüber der Nutzung von URL's bieten die von Verlagen vorbereiteten Document Identifier (DOI) bzw. allgemeiner die Vorschläge von Seiten der IETF zur Konstruktion von Universal Resource Names (URN's). Beachtung verdienen die am CNRI entwickelten Handles und die PURL's von OCLC.
Einschlägige Teilvorhaben verbreitern die Nutzung formaler Identifier. Sie werden relevante Dokumentenklassen zur Auszeichnung definieren und die dauerhafte Funktionsfähigkeit vorgesehener Resolverdienste sicherstellen.
Beispiele für solche Dokumententypen sind gesicherte Klassenbildungen,
die bei Konstanz des Namens Veränderungen an den Dokumenten zulassen
(Namen für Datenbanken), Verfahren, die Zuweisungen mehrerer URL's
zu einem Namen erlauben (Name für eine Klasse von Spiegeln), die die
byteweise oder intellektuelle Authentizität mit implizieren. Letzteres
ist im DOI-System für Verlagsmaterialien bereits realisiert.
Authentifizierung
Zur Authentifizierung von Daten und Dokumenten sind neben DOI's und URN's auch vom Endnutzer überprüfbare intrinsische Signaturen erforderlich (Nutzung von "third party supplied metadata", Authentifizierung von "aktiven'' Dokumenten (z.B. XML), Rating). Methoden der Identifikation des Senders sind während des Publikationsprozesses erforderlich (Einreichen einer Arbeit, Referierung, Copyright Transfer). Die Arbeiten der Dig-Sig Initiative (PICS) von W3C werden beachtet.
Terms and Conditions
Aufwendig gestaltet sich derzeit die Klärung von Terms and Conditions insbesondere hinsichtlich der Weiternutzung und Weiterverarbeitung von Dokumenten, Daten und Software. In diesem Bereich finden sich derzeit noch keine Überlegungen zur Qualifizierung von Dublin Core. Es wird untersucht, inwieweit sich Terms and Conditions auf formale (maschinenlesbare) Statements reduzieren lassen. Dabei soll ein Konzept für einen Standard entwickelt werden.
Die erheblichen Auswirkungen, die die Entwicklungen im Metadatenbereich auf Retrievalumgebungen haben, werden exemplarisch untersucht. Im einzelnen wird dies unter dem Punkt II.1.1.3. dargestellt.
Die Zusammenführung von Metadaten aus unterschiedlichen Quellen (Autoren, Verlage, Fiz'e, OPAC's) hat als besonders interessanten Aspekt die
Vernetzung
von Ressourcen, sowohl entlang logischer Zusammenhänge (Zitate, Zusammenführung von Autorreferat und Review, von intellektuell erstelltem Abstract und automatischer ``Essence'') als auch praktisch technischer Zusammenhänge (alternative Zugriffsmöglichkeiten, Vorhandensein in alternativen Formaten, Ausgaben, Bestandsnachweise in der lokalen Bibliothek).
Der Einsatz von formalen Identifiern (mit geringerer Zuverlässigkeit auch der herkömmlichen URL's) zur Vernetzung ist in verschiedenen Schichten eines Erschließungs-/ Retrievalprozesses relevant. Die Einsatzmöglichkeiten beginnen bei der Beeinflussung eines Sammelvorgangs und erstrecken sich bis zur Visualisierung in Nutzeranfragen (Darstellung einer Bezugsumgebung). Verweisstrukturen sollen dynamisch kontrolliert werden.
Ein einfaches Beispiel:
![]() |
|---|
![]() |
Die Gründe für das Verwerfen können mannigfach sein:
Objekt 2 ist eine vertrauenswürdige "third party" Metadaten-Ressource, die Objekt 3 als qualitativ höherwertig einstuft.
Objekt 1 wird als nicht lokal verwertbar erkannt: unbekannter file type.
Objekt 1 ist für die vorgegebene Nutzerpräferenz zu teuer.
Inhalt von Objekt 1 ist erst nach Erledigung anderer Geschäfte (Bezahlung) zugänglich.
Archivierung
Von Bedeutung sind lageunabhängige formale Identifier, die die
Konstanz des intellektuellen Inhalts garantieren. Formatwandlungen können
durch Annotation der beschreibenden Metadaten transparent gemacht werden.
Aufgrund der Aufgabenstellung werden Bibliotheken an der Implementierung
entsprechender formaler Identifier in Bereichen, die nicht durch DOI's
abgedeckt sind, beteiligt.
1.1.2. Überblick Arbeitspakete Metadaten
Die Arbeitspakete spiegeln zum einen zuvor skizzierte Entwicklungsbedürfnisse wieder, zum anderen aber auch die Überprüfung der Wirksamkeit im Rahmen prototypischer Installationen.
Persistent Identifiers (AP 4).
Aufgabe dieses Arbeitspaketes ist die tatsächliche exemplarische Umsetzung der formalen Definition von URNs für relevante Dokumentenklassen insbesondere aus dem Bereich der Bibliotheken und der Informationszentren. Neben der Vergabe wird sich dieses Arbeitspaket auch um die Auflösungsproblematik (Auflösung in URLs, Auflösung in andere Metadaten [Resource characteristics]) von URNs kümmern.
Erzeugung und Sicherung von Metadaten (AP 1)
Hier werden Metadaten-Erstellungswerkzeuge mit Sicherungsverfahren entsprechend den Standards bereitgestellt. Ein Modul wird die Kombination mit einem Dokumenten-Uploadtool erlauben.
Terms and Conditions/Archivierung (AP 2/5)
Es wird ein Schema für die formalisierte Erfassung von Terms and Conditions erarbeitet.
Fragen der Annotation von Metadaten, die etwa bei Formatwandlungen erforderlich werden, die Zuweisung von URNs und deren Nachführung bei Änderung des Archivierungsortes werden geklärt.
Metadata based Indexing of Scientific Resources (AP 6)
Inhaltliches Ziel des Arbeitspaketes ist die übersichtsmäßige Erfassung und Erschließung von wissenschaftlichen Dokumenten aus heterogenen Quellen. Im einzelnen werden Arbeitsergebnisse aus anderen Arbeitspaketen einfließen. Für die technische Basis ist insbesondere AP 7 zu nennen. Ausgangspunkt bildet die Installation ELib. Es soll überprüft werden, inwieweit die Qualität eines solchen Systems durch Metadaten und zu späterer Zeit auch durch Ergebnisse aus der Heterogenitätsbehandlung verbessert werden können.
1.2.1. Problemstellung und State-of-the-Art
Normierungsbemühungen wie der DC und Initiativen zur Akzeptanz
und Verbreitung von Metadaten sind eine Voraussetzung für anbieterübergreifende
Suchprozesse in einer täglich dezentraler werdenden Informationswelt.
Sie versuchen, die verlorengegangene Datenhomogenität durch freiwillige
Absprachen aller am Informationsprozeß Beteiligter partiell wiederherzustellen.
Dies kann jedoch nur teilweise gelingen. Ganz gleich, wie gut die
Einführung von Metadaten in einem Fachgebiet gelingt, die verbleibende
Heterogenität der verschiedenen Arten der Inhaltserschließung
(automatische Indexierung, verschiedene Thesauri,
verschiedene Klassifikationen, Unterschiede
der erfaßten Kategorien, Verläßlichkeit der Daten) wird zu groß sein, um sie zu vernachlässigen.
Bis auf wenige Ausnahmen geschieht heute jedoch genau dies. Deskriptoren, die in unterschiedlichsten Inhaltserschließungszusammenhängen ermittelt wurden und deshalb eine jeweils unterschiedliche Bedeutung und Relevanz haben, werden von Suchmaschinen über (technisch) verteilten Datenbanken direkt verbunden, was ein Grund für die unbefriedigenden Ergebnisse heutiger Systemansätze ist.
Als Methodik bietet sich die Entwicklung von Transfermodulen als intelligente Agenten zwischen den verschieden Datentypen an, die die semantischen und pragmatischen Differenzen ber|cksichtigen und f|r den Rechercheprozeß adäquat auswerten. Dieses Konzept erleichtert es, so verschiedene Strategien wie die Entwicklung von Transferkonkordanzen verschiedener Klassifikationen und Thesauri, quantitativ-statistische Komponenten oder deduktive Transferansätze aufeinander zu beziehen. Wie dieser Transfer im Detail für spezifische Anwendungsfelder auszusehen hat, läßt sich aus dem State-of-the-Art jedoch nur sehr unvollständig ableiten. Hierfür neue Vorschläge empirisch aus dem Datenmaterial abzuleiten, ist eine zentrale Aufgabe der SFM. Methodisch kann partiell auf Vorarbeiten aus dem Projekt ELVIRA (gefördert vom BMWI) zurückgegriffen werden, das textuelle Information mit solchen aus Zeitreihendaten verschiedener Verbände integriert.
Ein wesentlicher Grund für die Heterogenität in polyzentrischen Strukturen verteilter Informationsbestände ist, daß es keine eindeutigen Gewichtungskriterien für die Auswahl von Informationsbeständen und deren Bewertung mehr gibt. Was für den einen Nutzer oder auch im Selbstverständnis einer wissenschaftlichen Disziplin am Rande des Interessenfeldes liegen mag, steht für den anderen Nutzer oder auch eine Teil- oder Nachbardisziplin im Zentrum der Aufmerksamkeit. Wissenschaftliche Fachliteratur einerseits und graue oder populäre Medien aus den umfangreichen praxisbezogenen Anwendungsbereichen der Wissenschaft andererseits können nicht von vornherein in ein hierarchisches Verhältnis der Über- und Unterordnung gesetzt werden. Beide Zugänge haben ihre jeweilige Berechtigung; ihre differierende Prioritätensetzung und die unterschiedlichen Nutzergruppen müssen bedient werden. Hinzu kommt, daß ein möglichst hoher und durch entsprechende Aktivitäten in den Fachmilieus sukzessive steigender Grad der Selbsterschließung von Dokumenten durch ihre Erzeuger (z.B. Aufsatz- oder Buchautoren) angestrebt werden sollte, was in der Praxis ebenfalls zur Heterogenitätssteigerung beitragen kann.
1.2.2. Überblick Arbeitspakete Heterogenitätsbehandlung
Die drei Arbeitspakete AP9, AP11 und AP12 behandeln verschiedene Aspekte der Heterogenitätsproblematik.
Die Möglichkeiten zur Heterogenitätsbehandlung mit Hilfe von intelligenten Transfermodulen müssen für ein spezifisches Fachgebiet empirisch-analytisch bestimmt werden. Nach Festlegung der zu integrierenden Datenbestände der beteiligten Fachgebiete und der Festlegung der DC Vorschriften ist die verbleibende Heterogenität an den konkreten Datenbestdnden empirisch zu ermitteln und die Methodik für ihre adäquate Behandlung festzulegen. Diese Erkenntnisse gehen in das anschließend zu realisierende Netz von einzelnen Transfermodulen ein, die die verschiedenen Datentypen eines Fachgebiets miteinander verbinden. Die Problemstellung ist insofern neu, als sich bisherige Ansätze im wesentlichen auf die technologischen Fragen der Verbindung heterogener Dokumentenbestdnde mit verschiedenen Datentypen beschränkten. Andererseits zeigen die Vorerfahrungen mit ELVIRA (cf. AP11), daß es eine Reihe von Transfermöglichkeiten gibt, die sich mit der heute bestehenden Methodologie aus dem IR und den klassischen Expertensystemansätzen relativ gesichert zur Homogenitätssteigerung nutzen lassen.
Diese Basis legt AP 11.
Konkordanzen zu Klassifikationen und Thesauri (AP 12)
Die verschiedenen Begriffssysteme werden analysiert und der Versuch gemacht, ihre Begrifflichkeit intellektuell aufeinander zu beziehen. Bei der Recherche bieten solche Konkordanzen die Mvglichkeit, Terme der einen Klassifikation/des einen Thesaurus auf die in einem anderen Begriffssystem bestehenden auszuweiten, im einfachsten Fall im Sinne einer Synonymierelation, aber auch als Ähnlichkeitsrelation oder als deduktive Regelbeziehung.
Crosskonkordanzen bzw. -klassifikationen lösen nicht für sich allein genommen das Heterogenitätsproblem. Das müssen sie im Rahmen der Gesamtarchitektur von Carmen auch nicht tun. Sie decken jedoch den statisch bleibenden Teil der Transferproblematik ab, der auf der Basis bereits entwickelter i.d.R. intellektuell erstellter Begriffsysteme aufbaut und diese Vorarbeiten nutzt.
Quantitativ-statistische und deduktive Ansätze (AP 11)
Das Transferproblem läßt sich allgemein als Vagheitsproblematik modellieren. Hierfür sind generell bei der Faktenrecherche und beim Textretrieval verschiedene Verfahren vorgeschlagen worden (probabilistische Modelle, fuzzy logic, neuronale Netze), die sich auch auf die Transferproblematik anwenden lassen. Gleichzeitig dürften empirische Untersuchen deduktive Zusammenhdnge offen legen, die mit Techniken aus dem Bereich der Expertensysteme zu behandeln wären.
Neben dieser Ordnung nach Verfahrensweisen greifen die Arbeitspakete spezifische Grundsituationen auf, deren Lösung die Voraussetzung für die Entwicklung einer der obigen Verfahrensweisen ist.
Die Verbindung zweier Fachgebiete ist ein Sonderfall des Transfers mit eigenen Gesetzmäßigkeiten.
Sie sollen exemplarisch für die Gebiete Mathematik und Physik in AP 9 geklärt werden, das sowohl der Metadaten- als auch der Heterogenitätsproblematik beim Übergang von einem Fachgebiet in ein benachbartes nachgeht.
Damit sind einige wesentliche Problemkreise der Heterogenitätsbehandlung abgedeckt. Sie versprechen in ihrer Gesamtheit eine tragfähige Lösung, die zu einer deutlichen Verbesserung der Rechercheleistung führen werden. Die Vorgehensweise und eingesetzte Methodik stellen sicher, daß die Realisierungschancen für Fortschritte bei der Homogenisierung der Daten hoch sind.
Viele heute praktisch eingesetzte Retrievalverfahren (insbesondere die WWW-Suchmaschinen und andere Web-basierte Suchsysteme wie z.B. Harvest) behandeln Dokumente als unstrukturierte Textblöcke. Metadaten werden von Harvest nur in HTML2.0 Kodierung erkannt. Daher sind diese Systeme für Dokumentrecherchen nur bedingt geeignet. In dem Maße, wie Metadaten und Volltexte mit reichhaltigerer Strukturierung bereitgestellt werden, wächst auch der Bedarf nach geeigneten Such- und Navigationshilfen, die unter Ausnutzung der explizit vorhandenen Struktur eine präzisere Recherche erlauben. Insbesondere sollen folgende Recherchestrategien unterstützt werden:
Inhaltsorientierte Navigation: Basierend auf einem Klassifikationsschema oder Thesaurus navigiert der Benutzer zu den ihn interessierenden Einträgen.
Freitextsuche: Der Benutzer gibt einige Begriffe ein, die sein Informationsbedürfnis beschreiben, und sucht dann nach hierzu relevanten Dokumenten, wobei die Suche selbst in der Regel auf ``Kurzfassungen'' der Dokumente stattfindet.
Volltextsuche: Bei langen Dokumenten (z.B. Büchern) möchte der Benutzer außer dem Nachweis des Gesamtdokumentes auch einen Hinweis auf den mutmaßlich relevanten Dokumentteil.
Strukturorientierte Dokumentsuche: Der Benutzer sucht nach Inhalten, die in bestimmten Dokumentteilen auftreten sollen (z.B. eingebetteter Programmcode, semantisch faßbare Dokumentteile wie Beweise, Abstracts).
Verwandtheitssuche: Z.B. Referenzen oder Zitate verfolgen; zitierende, enthaltene oder umfassende Dokumente finden.
Herkunftsorientierte Suche: Wenn ein relevanter Autor oder eine Institution bekannt sind, sucht der Benutzer nach Dokumenten vom selben Autor / derselben Institution.
Um solche Recherchetaktiken zu unterstützen, muß ein Retrievalsystem zur Verfügung stehen, das strukturierte Dokumente und Metadaten verarbeiten kann und geeignete Such- und Navigationsfunktionen anbietet.
Aus vielfältigen Gründen (z.B. aus rechtlichen und wirtschaftlichen) können die Dokumente selbst häufig nicht an zentraler Stelle gespeichert werden. Daher sollen nur die Metadaten und die Indexierungsdaten in einer Datenbank, die Überblicke vermitteln soll, gespeichert werden. Um auf verteilt vorliegende Metadaten und Dokumente zugreifen zu können, muß eine Sammler-(Gathering-)Komponente bereitgestellt werden. Damit das System neben XML-basierten Dokumentformaten (wie z.B. MathML und CML) auch klassische Dokumentformate wie HTML, Postscript, PDF und LaTeX verarbeiten kann, muß ferner eine Extraktor-Komponente (Extractor/Summarizer) entwickelt werden, die die für die Indexierung benötigten Daten aus diesen Formaten extrahiert.
Die vorstehenden Anforderungen werden durch heute verfügbare Systeme nur äußerst unzureichend erfüllt.
Kommerzielle Retrievalsysteme unterstützen in der Regel nur unstrukturierte Dokumente mit Attributsätzen. Nur wenige Systeme bieten darüber hinaus auch die Möglichkeit der strukturorientierten Suche (z.B. in SGML-Dokumenten). Eine Volltextsuche wie oben beschrieben gibt es jedoch in keinem Fall. Ferner bieten diese Systeme nur wenige, vage Prädikate (z.B. nach phonetischer Ähnlichkeit von Autoren) und sind nicht erweiterbar, um fachspezifische Datentypen und Suchoperatoren zu integrieren (z.B. Suche nach Texten, in denen bestimmte technische Meßgrößen auftauchen). Auch was die Navigationsmöglichkeiten angeht, bieten diese Systeme - wenn überhaupt - nur eine äußerst unzureichende Unterstützung.
Die Navigationsmöglichkeiten stehen dagegen im Hypermedia-System Hyperwave im Vordergrund, wobei aber primär aggregierende Verknüpfungen unterstützt werden und andere Arten von Verknüpfungen nur hinsichtlich Ihrer Konsistenz überwacht werden. Insbesondere wird die Navigation zwischen Attributwerten und Dokumenten (z.B. Autorennnamen, Klassifikationen) nicht unterstützt. Auch die Retrievalfunktionalität unterstützt Strukturierung und Attribute kaum.
Im Bereich der Forschung wurde Volltextsuche bislang nur wenig untersucht. Im IOTA-Projekt wurde ein heuristischer Ansatz hierzu entwickelt. An der Universität Dortmund wird zur Zeit ein logikbasierter Ansatz verfolgt und prototypisch implementiert, das System ist aber praktisch noch nicht einsetzbar. Für die strukturorientierte Suche in Volltexten gibt es eine ganze Reihe von Ansätzen mit zugehörigen effizienten Implementierungen, doch berücksichtigt keiner davon die dem Textretrieval immanente Vagheit und Unsicherheit.
Bei der verteilten Suche im Internet sind die WWW-Suchmaschinen (die
i.d.R. reine Textsuche in unstrukturierten Web-Dokumenten realisieren)
besonders populär. Im Gebiet der Digitalen Bibliotheken werden vornehmlich
Systeme entwickelt, die eine Suche in verteilten Datenbanken realisieren
(wie etwa der Stanford Infobus, das University
of Michigan Digital Library System und das im MeDoc-Projekt entwickelte
IVS. Das Harvest-System setzt im
Gegensatz zu diesen letztgenannten Systemen keine lokalen Datenbanken voraus,
sondern benötigt nur einen Server, über den der Gatherer auf
das Dokument zugreifen kann. Im Unterschied zu den WWW-Suchmaschinen kann
eine ganze Reihe von Dokumentformaten verarbeitet werden, aus denen der
Summarizer die Indexierungsdaten extrahiert, die dann der Retrievalkomponente
zur Verfügung gestellt werden.
1.3.2. Überblick Arbeitspakete Retrieval (AP
7)
Zur Realisierung der hier angestrebten Funktionalität muß primär eine geeignete Retrievalkomponente entwickelt werden, die durch eine Gathering- und eine Extraktor-Komponente ergänzt werden muß.
Die Retrievalkomponente soll ausgehend von der in Dortmund vorhandenen Basis-Retrieval-Engine realisiert werden. Dabei sind folgende Funktionen zu realisieren:
Retrieval auf Metadaten: Retrieval auf Datensätzen mit XML-Struktur, flexible Textsuche mit unterschiedlichen linguistischen Operatoren, Suchfunktionen für verschiedene Datentypen (z.B. Personennamen, technische Meßgrößen) und Taxonomien (Klassifikationen, Thesauri), Ähnlichkeitssuche für Dokumente.
Suche in Volltextdokumenten: Volltextsuche nach relevanten Dokumentteilen, strukturorientierte Suche.
Navigation in Hypertextstrukturen: Navigation innerhalb von Attributwerten (z.B. Klassifikationsschemata) sowie zwischen Attributwerten und Dokumenten (in beiden Richtungen), Navigation zwischen Metadatensätzen und den zugehörigen Dokumenten, Verfolgung referentieller Verknüpfungen, Navigation entlang aggregierenden Verknüpfungen (z.B. Zeitschrift - Band - Heft - Artikel).
Automatische Klassifikation: Zuordnung von Klassifikationen oder Deskriptoren zu Dokumenten mittels nearest-neighbour-Suche auf bereits klassifizierten/indexierten Dokumenten.
Die Gathering-Komponente soll aufbauend auf dem derzeitigen Harvest-Gatherer entwickelt werden, wobei folgende Verbesserungen vorgesehen sind:
Gathering-Strategie: Neben dem rekursiven Durchsuchen von Verzeichnissen sollen auch Querverweise in den Metadatensätzen (DC.Relation) verfolgt werden.
Ausgabeformat: Derzeit erfolgt die Ausgabe des Gatherers im Harvest-spezifischen SOIF-Format. Dies soll nach RDF (also XML-Syntax) geändert werden.
Prozessierungsmodus: Generell soll inkrementelles Gathering möglich sein.
Die Extraktor-Komponente dient dazu, Metadaten aus unterschiedlichen Dokumentformaten zu extrahieren. (Da auch in näherer Zukunft ein Großteil der Dokumente nicht in XML vorliegen wird und um bereits existierende Dokumentbestände zu berücksichtigen, ist eine solche Komponente notwendig.) Hierbei wird von den Harvest-Summarizern für verschiedene Dokumentformate (Postscript, RTF, TeX, ASCII, troff, HTML) ausgegangen, die wie folgt verbessert werden sollen:
Erweiterung auf neue Dokumentformate (z.B. MathML, CML).
Heuristiken zur Extraktion von Metadaten (z.B. Autoren eines Postscript-Dokumentes): Einbau der Ergebnisse von AP 11.
Ausgabeformat: Änderung nach XML.
Post-Summarizing: Kombination mit den vom Gatherer gelieferten Metadaten, Konversion zwischen unterschiedlichen Arten der Inhaltserschließung.
Kompatibilität zum Harvestsystem.
(Literaturhinweise zu 1.3 bei AP 7)
Die "Zangenbewegung" der Konsistenzerhöhung durch Metadatenaktivitäten und Maßnahmen, die die verbleibende Heterogenität behandeln, wird somit durch Entwicklungen beim Retrieval ergänzt, die spezifische Problemstellungen wie Textstrukturierung und die Metadaten nutzen. So führt z.B. die Einführung von XML zu neuen Möglichkeiten, hierarchisch gestufte Texte probabilistisch zu indexieren. Die Grundgedanken von Global-Info setzen dabei voraus, daß CARMEN die Verbindung zu den bisher am Markt eingesetzten Verfahren berücksichtigt.
2.1. Systemkomponenten
Die Mehrzahl der AP führt zu testbaren Teil-Prototypen, die sich zu einem lauffähigen Gesamtsystem CARMEN verbinden. Das AP 2/5 liefert konzeptuelle Daten, die als Basis für die anderen Aktivitäten von CARMEN dienen.
Retrieval und Inhaltserschließung:
Prototypentwicklung eines integrierten Retrieval- und Hypertextsystems
sowohl für Metadatensätze als auch für Volltexte
Zusätzliche Eigenschaften: Gathering-Komponente zur Indexierung, Extraktor-Komponente
für Metadaten in unterschiedlichen Dokumentformaten (AP
7)
Prototypisches Werkzeug zur vollständigen Beschreibung von bibliographischen
und inhaltsbeschreibenden Metadaten (Dublin Core) für Endnutzer, einschließlich
der Erstellung von digitalen Unterschriften
Eigenschaften: selbsterklärend, plattformunabhängig, Berücksichtigung
von RDF, Upload (AP 1)
Werkzeug zur Konversion für verschiedene Metadatenschemata bei Verlagen, Fachinformationszentren, Bibliotheken und Autoren im WWW, MetaDatenintegration (AP 6).
Entwicklung eines Prototypen zur Organisation und Verwaltung von persistent Identifier (DOI, URL/URN) auf der Basis eines zu erarbeitenden Anforderungsspektrums und von Tests bestehender Werkzeuge. (AP 4)
Intelligente Transfermodule für die Heterogenitätsbehandlung.
Verknüpfung zweier verschiedener fachspezifischer Informationssysteme (Mathematik, Physik); Recherche unter einer einheitlichen Oberfläche und Integration der Komponenten zur Heterogenitätsbehandlung (AP 9 mit Elementen aus AP 11, AP 12)
Exemplarischer Aufbau eines Label-Büros und Rating Services.
Das Büro bietet PICS-Labels (und damit auch Digitale Signaturen) für
Dokumente auf beliebigen Servern an, die eventuell von nochmals anderen
Anbietern erzeugt wurden (rating service) (AP 1).
Prototypische Installation eines lauffähigen Gesamtsytems (AP 6)
Metadatenspezifikation für terms and conditions und die Anforderungen der Archivierung (AP 2/5)
Die Sonderfördermaßnahme CARMEN wird ihr Datenmaterial aus einem breiten Spektrum sachlich hochqualifizierter Quellen beziehen.
Grundlegende Anwendungen hinsichtlich Metadaten/Indexierung werden über den naturwissenschaftlichen Bereich hinausgreifend durch Operationen auf Verlagsmaterialien gewonnen (z.B. MAJOUR-Header). Hinzu treten Daten aus dem bibliothekarischen Bereich.
Vertieft wendet sich CARMEN dem im wissenschaftlichen Bereich derzeit elektronisch anfallenden Dokumentenmaterial in seiner vollen Komplexität in den Fächgebieten Mathematik, Physik und Sozialwissenschaften zu.
Zu den Materialien tragen hier zusätzlich das Fachinformationszentrum Karlsruhe, das Informationszentrum Sozialwissenschaften (IZ) der GESIS, die Fachinformationssysteme MathNet und PhysNet sowie der verteilte Preprintdienst MPRESS bei. Damit stehen unter anderem in erheblichem Umfang Daten zur Verfügung, für die Methoden zur Heterogenitätsbehandlung nichttrivial angewandt, angepaßt und weiterentwickelt werden müssen.
Für die Entwicklung von Methoden und Verfahren ist die Wahl der Fächer exemplarisch zu sehen. Die starke Konzentration auf den mathematisch-physikalischen Bereich hat pragmatische Gründe, die aus dem Stand der Anwendung elektronischer Information und Kommunikation resultieren.
Hierauf basiert wesentlich der von allen an der Publikationskette beteiligten Gruppen getragene Wille, das Problem der Inhaltserschließung elektronischen wissenschaftlichen Materials in seiner Vielschichtigkeit an dieser Stelle zusammenwirkend anzugreifen.
Als Korrektiv bei der Generalisierung der vorgesehenen Entwicklungen dienen Dokumente aus den Sozialwissenschaften.