Stefan Kokkelink
Extraktion von Metadaten aus mathematischen Preprints im Postscript Format
Version 1.0 (Oct 2001)
Abstract. Im Folgenden wird beschrieben, wie sich durch einfache Heuristiken Abstract, Schlüsselwörter und MSC Klassifikationen aus mathematischen Preprints im Postscript Format extrahieren lassen, falls diese von den Autoren vergeben wurden. Ausgangspunkt ist das von der New Zealand Digital Library entwickelte Programm prescript, das Postscript Dokumente in Text- oder HTML-Dokumente konvertiert.
1. Dokumentenstruktur
Das Konvertierungsprogramm prescript versucht bei der Konvertierung von Postscript nach HTML die Informationen über Seiten, Paragraphen und Zeilen des ursprünglichen Postscript Dokumentes zu erhalten.
Beispiel 1.
Neben Umlauten, Sonderzeichen u.ä., bereiten mathematischen Formeln besondere Probleme, wie das folgende Beispiel zeigt.
Beispiel 2.
Diese Problematik muss bei der Erstellung von Heuristiken zur Extraktion von Metadaten besonders berücksichtigt werden. Für die Anwendung von Heuristiken ist es unumgänglich, einen wohldefinierten Zugang zu der Dokumentenstruktur der von Prescript erzeugten HTML Dokumente zu haben. Deshalb wurde die Perl Bibliothek PrescriptStructure erstellt, die HTML Dokumente auf die folgende Datenstruktur abbildet:
Die Klasse PrescriptStructure stellt eine Reihe von Methoden zur Verfügung, mit deren Hilfe auf diese Datenstruktur zugegriffen werden kann (vgl. POD Dokumentation).
2. Heuristiken
Aufbauend auf die Klasse PrescriptStructure wurde die Klasse MathHeuristics erstellt, die Methoden zur Extrakion von Abstract, Schlüsselwörter und MSC Klassifikationen aus den erzeugten HTML Dokumenten anbietet (vgl. POD Dokumentation). Zur Zeit sind die folgenden Heuristiken implementiert.
Erkenne den Paragraphen als Anfang eines Abstracts. Überprüfe, ob der Paragraph mit einem Punkt endet oder die Anzahl der Zeilen des Paragraphen größer 1 ist. Falls nicht, addiere solange die folgenden Paragraphen zu dem gefundenen Abstract-Anfang, bis diese Bedingung erfüllt ist.
Lösche evtl. eines der Wörter 'abstract', 'summary', oder 'zusammenfassung'.
Überprüfe, ob die Zeile mit einem Punkt endet oder letzte Zeile des Paragraphen war. Falls nicht, addiere solange die folgenden Zeilen, bis diese Bedingung erfüllt ist.
Falls diese Strategie keinen Treffer liefert gehe, wie folgt vor: Addiere die ersten drei Seiten in ein Textfragment und suche in diesem Textfragment nach einer Zeile (im Sinne von Text, nicht von Prescript!), die mit dem Wort 'Key' beginnt. Addiere zu dieser Zeile die nächsten fünf Zeilen in ein neues Textfragment. Lösche in diesem Textfragment alles, was nach dem ersten Auftreten eines "<br>", eines <P> oder eines "." kommt. Erkenne den Rest als Keywords.
3. Erste Testergebnisse
Untersucht: 37 Preprints.
Vorhandene Angaben:
|
Abstract |
33 (89%) |
|
Keywords |
21 (56%) |
|
MSC |
20 (54%) |
Es wurden 29 Abstracts korrekt extrahiert (89%), ein Abstract wurde überhaupt nicht und drei Abstracts wurden nicht vollständig erkannt. Es wurden alle Schlüsselwörter erkannt (100%). Es wurden alle MSC Klassifikationen erkannt (100%), allerdings wurde eine ungültige Klassifikation zuviel ausgegeben.