|
Klassifizierung von Biosystematikliteratur
zur Extraktion spezifischer Arten
Ralf Duckstein
TU Dresden
Belegverteidigung
Die Klassifikation einer (Ameisen)-Art mit Hilfe vorhandener
Literatur ist immer noch sehr aufwendig und langwierig. Teile sind
bereits elektronisch erfasst und strukturiert. Es fehlt jedoch an
Werkzeugen, die unter der Vielzahl an Dokumenten das finden, das am
besten auf die gegebene Beschreibung passt und so die Klassifikation
zulässt.
Hier ist es erforderlich, von der gegebenen Beschreibung zu
abstrahieren, alternative Beschreibungen, Synonyme zu finden, um
auch wirklich das passende Ergebnis zu liefern.
Die XML-Dokumente werden dazu in eine Datenbank importiert, mittels
Volltextsuche indexiert und verschiedene Metadaten angelegt, die
Aspekte berücksichtigen die die Volltextsuche nicht abdeckt.
Zentraler Teil des Projektes ist die Nutzung von Thesauri zur
Query-Expansion bei der Volltextsuche. Dazu wurde auf einen fertigen
Thesaurus zurückgegriffen sowie ein eigener einfacher Thesaurus
bereitgestellt der geändert und ergänzt werden kann. Als Ergebnis
steht ein Webinterface bereit das den Biologogen bei ihrer täglichen
Arbeit behilflich sein soll.
|