Commit 8fe85b80 authored by Gradl, Tobias's avatar Gradl, Tobias
Browse files

Technischer Hintergrund

parent c41f7394
......@@ -12,10 +12,37 @@ Der Erfolg quantitativer Verfahren für die Erkennung und Einschätzung biograph
.. image:: ./pics/qualitative_quantitative_interaktion.png
Obige Abbildung zeigt die drei im Cosmotool vorgesehenen Stellen der qualitativen Interaktion: Neben manueller Korrekturmöglichkeiten an biographischen Profilen soll insbesondere die Veränderung von Heuristiken und Modellen, also des in semi-automatischen Verfahren angewendeten Domänenwissens ermöglicht werden. Zudem erhalten Anwender des Systems Möglichkeiten die Zusammenstellung betrachteter Datenbasen zu verändern. Dies bedeutet die Eintragung, Veränderung oder Löschung von Einträgen in der dedizierten Collection Registry bzw. auch die Selektion relevanter Quellen zum Anfragezeitpunkt.
Die obige Abbildung zeigt die drei im Cosmotool vorgesehenen Stellen der qualitativen Interaktion: Neben manueller Korrekturmöglichkeiten an biographischen Profilen soll insbesondere die Veränderung von Heuristiken und Modellen, also des in semi-automatischen Verfahren angewendeten Domänenwissens ermöglicht werden. Zudem erhalten Anwender des Systems Möglichkeiten die Zusammenstellung betrachteter Datenbasen zu verändern. Dies bedeutet die Eintragung, Veränderung oder Löschung von Einträgen in der dedizierten Collection Registry bzw. auch die Selektion relevanter Quellen zum Anfragezeitpunkt.
Wortfelder
----------
Als erster weiterführender, methodischer Schritt zur Klassifikation und Beschreibung von Personengruppen wurde eine Möglichkeit zur Registrierung definitorischer Wortfelder implementiert. Als Wortfeld wird eine Menge von Begriffen verstanden, die in einem Bedeutungszusammenhang stehen.
Als erster weiterführender, methodischer Schritt zur Klassifikation und Beschreibung von Personengruppen wurde eine Möglichkeit zur Registrierung definitorischer Wortfelder [Go84]_ implementiert. Als Wortfeld wird eine Menge von Begriffen verstanden, die in einem Bedeutungszusammenhang stehen.
Für den Einsatz im Cosmotool ist vorgesehen, dass Domänenexperten global sichtbare, übrige Anwender individuell verwendbare Wortfelder definieren können, die eine Selektion und Klassifikation von Personen erlaubt.
Um im Beispiel des qualitativ erarbeiteten Pietistennetzwerks durch quantitative Unterstützung weitere Personen zuweisen zu können, erarbeitet das IEG derzeit klassifizierende Wortfelder für religiöse Gruppen. Neben der manuellen, direkten Erfassung von Wortfeldern ist zudem die Errechnung solcher auf Basis definitorischer Texte vorgesehen.
Datenföderationsarchitektur
---------------------------
Vergleichbar mit der Generischen Suche [#linkSuche]_ von DARIAH-DE ist auch das Cosmotool ein integratives Werkzeug, welches auf der Basis von:
- verschiedenen Dokumentkollektionen (biographische Texte und Daten) und
- heterogenen Datenmodelle (unterschiedliche Schemata, unstrukturierte Daten)
- integrative Sichten auf biographische Profile von Personen erreichen möchte.
War der Prototyp des Cosmotools in seiner initialen Entwicklung in den ersten Phasen (2011-2016) von DARIAH-DE noch als autonome Komponente implementiert worden, um in möglichst kurzer Zeit erste vorzeigbare Ergebnisse zu generieren, so hatte sich bereits im Verlauf der Entwicklungen gezeigt, dass die synergetische Entwicklung der Werkzeuge sowohl für die Komponenten der DARIAH-DE Datenföderationsarchitektur (DFA, vgl. Abbildung) wesentliche Vorteile sowohl für die DFA, als auch die Umsetzung des Cosmotools selbst.
.. image:: ./pics/dfa_architektur.png
So werden die dem Cosmotool zu Grunde liegenden Datenquellen im Rahmen einer dedizierten Instanz der Collection Registry verwaltet. Schemata und Regeln zur Verarbeitung biographischer Daten werden in der Schema Registry definiert.
Das semantische Cluster Biographien (nach Definition in [Gr16a]), welches mit Hilfe der Komponenten der DFA entwickelt wird. Schemata (hier S6, S7, S8 und S9) werden durch Mappings assoziiert.
.. image:: ./pics/biocluster.png
Der Bildschirmausschnitt in Abbildung 4 zeigt einen Ausschnitt der Modellierung von Personeneinträgen aus Wikipedia. Hier wurde z. B. spezifiziert, wie die in den Artikel integrierten strukturierten Daten (im Ausschnitt) zu entnehmen sind, Textstellen mit Hilfe von NLP zu verarbeiten sind und gefundene biographische Evidenz auf die biographischen Profile zu mappen sind. Für Details verweisen wir an dieser Stelle auf [Gr16c].
.. image:: ./pics/screenshot_dme_cundc.png
.. [#linkSuche] unter https://search.de.dariah.eu
\ No newline at end of file
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment