Commit 7eed06f3 authored by Gradl, Tobias's avatar Gradl, Tobias
Browse files

Erster Release der Doku -> M5.2.1

parent 19ae9f41
===========
Hintergrund
===========
Einleitung
----------
Die Arbeiten am Cosmotool wurden im Rahmen der vergangenen Projektphase von DARIAH-DE begonnen – primär um die prinzipielle Eignung eines solchen Werkzeugs für die Unterstützung geisteswissenschaftlichen Forschung zu erheben und Anforderungen an die Umsetzung einer produktiven Version des Cosmotools im Rahmen der aktuellen Förderphase zu sammeln. Der Fokus der Konzeption und prototypischen Implementierung des Cosmotools lag und liegt dabei primär auf Anforderungen, die aus der qualitativen, historischen Forschung am Leibniz Institut für Europäische Geschichte (IEG) Mainz abgeleitet werden können.
Die Arbeiten am Cosmotool wurden im Rahmen der vergangenen Projektphase von DARIAH-DE begonnen – primär um die prinzipielle Eignung eines solchen Werkzeugs für die Unterstützung der geisteswissenschaftlichen Forschung zu erheben und Anforderungen an die Umsetzung einer produktiven Version des Cosmotools im Rahmen der aktuellen Förderphase zu sammeln. Der Fokus der Konzeption und prototypischen Implementierung des Cosmotools lag und liegt dabei primär auf Anforderungen, die aus der qualitativen, historischen Forschung am Leibniz Institut für Europäische Geschichte (IEG) Mainz abgeleitet werden können.
Mit Hilfe automatischer Methoden zur Analyse und Visualisierung von Daten soll die qualitative Forschung insbesondere wie folgt unterstützt werden:
- Biographische Informationen aus unterschiedlichen Quellen sollen zu (potenziell) transnationalen Lebens- und Bewegungsprofilen historischer Personen zusammengeführt werden.
- Die interaktive Erschließung dieser Profile aus unterschiedlichen Dimensionen (Personen, Orte, Zeitpunkte/-räume, Ideen/Ereignisse) soll Kriterien für Zusammenhänge zwischen Entitäten, die Gruppierung von Personen und die Visualisierung dieser Personengruppen ermöglichen.
Anwendungsfälle für die Analyse und Verarbeitung biographischer Daten mit Hilfe informatischer Methoden waren hierbei zunächst auf das Cosmobilities1 Projekt des IEG fokussiert. Durch die Erweiterung der Betrachtung auf einen weiteren, primären Anwendungsfall der historischen Forschung am IEG, sowie den Rückmeldungen von Nutzern und Interessenten des Cosmotools konnten Anforderungen so generalisiert werden, dass einmal implementierte, technisch generische Konzepte zu einer Unterstützung einer Vielzahl spezifischer, fachlicher Anwendungsfälle führen kann.
Anwendungsfälle für die Analyse und Verarbeitung biographischer Daten mit Hilfe informatischer Methoden waren hierbei zunächst auf das Cosmobilities Projekt [#cosmobilities]_ des IEG fokussiert. Durch die Erweiterung der Betrachtung auf einen weiteren, primären Anwendungsfall der historischen Forschung am IEG, sowie den Rückmeldungen von Nutzern und Interessenten des Cosmotools konnten Anforderungen so generalisiert werden, dass einmal implementierte, technisch generische Konzepte zu einer Unterstützung einer Vielzahl spezifischer, fachlicher Anwendungsfälle führen.
Motivation
----------
......@@ -18,7 +16,7 @@ Motivation
Internationale Perspektive auf Biographien stärken
++++++++++++++++++++++++++++++++++++++++++++++++++
In ihrer biographischen Beschreibungen werden historische Akteure oft immer noch in Rahmen einer Nation portraitiert [Pa15]_. Das Cosmotool kann durch erfassen der Daten aus mehreren Quellen ein breiteres Bild zeichnen und die internationale Karrieren der historischen Persönlichkeiten erfassen. Auch wenn Versuche eine inter/transnationale Geschichte zu schreiben nicht neu sind, bietet das Cosmotool einen Vorteil in dem es einen schnelleren Überblick über die schematischen biographischen Profile erlaubt.
In biographischen Beschreibungen werden historische Akteure oft im Rahmen einer Nation portraitiert [Pa15]_. Das Cosmotool kann durch Erfassen der Daten aus mehreren Quellen ein breiteres Bild zeichnen und potenziell die internationale Karrieren der historischen Persönlichkeiten erfassen. Auch wenn Versuche eine inter-/transnationale Geschichte zu schreiben nicht neu sind, bietet das Cosmotool einen Vorteil in dem es einen schnelleren Überblick über die schematischen biographischen Profile erlaubt.
Erkennen der Muster in Biographien
++++++++++++++++++++++++++++++++++
......@@ -37,4 +35,6 @@ So könnten beispielsweise Eigenschaften für die Gruppe der Missionare identifi
.. [#methode1] Dazu zählen auch Arbeiten von [Be02]_
.. [#cosmobilities] http://www.ieg-mainz.de/Forschungsprojekte------_site.site..ls_dir._nav.17_f.69_likecms.html
......@@ -3,13 +3,17 @@
DARIAH-DE Cosmotool
===================
Das Cosmotool ist ein im Rahmen von DARIAH-DE entwickelter Prototyp für die Analyse und Visualisierung biographischer Daten historischer Personen. Durch die Kombination von Daten aus unterschiedlichen Quellen werden biographische Profile aggregiert und so beispielsweise über nationale oder kulturelle Sichtweisen integriert. Im Moment basieren die Profile im Wesentlichen auf Wikidata und der deutschsprachigen Wikipedia, um zunächst einen ausreichend dimensionierten Korpus für die Anwendung quanititativer Methoden (z. B. für :ref:`abschlussarbeiten`) bereitzuhalten.
Das Cosmotool ist ein im Rahmen von DARIAH-DE entwickelter Prototyp für die Analyse und Visualisierung biographischer Daten historischer Personen. Durch die Kombination von Daten aus unterschiedlichen Quellen werden biographische Profile aggregiert und so beispielsweise über nationale oder kulturelle Sichtweisen integriert. Im Moment basieren die Profile im Wesentlichen auf Wikidata und der deutschsprachigen Wikipedia, um zunächst einen ausreichend dimensionierten Korpus für die Anwendung quanititativer Verfahren (z. B. auch im Rahmen von :ref:`abschlussarbeiten`) bereitzuhalten.
Die Integration weitere Quellen ist geplant bzw. in Arbeit. Es wird jedoch insbesondere auch das Ziel verfolgt, interessierten Forschenden die Integration eigener relevanter Daten über die Dienste der `DARIAH-DE Datenföderationsarchitektur (DFA) <https://de.dariah.eu/data-federation-architecture>`_ zu erleichtern.
Die Integration weiterer Quellen ist geplant bzw. in Arbeit. Es wird jedoch insbesondere auch das Ziel verfolgt, interessierten Forschenden die Integration eigener relevanter Daten über die Dienste der `DARIAH-DE Datenföderationsarchitektur (DFA) <https://de.dariah.eu/data-federation-architecture>`_ zu erleichtern.
Die derzeitig operative Version des Cosmotools findet sich unter `https://cosmotool.de.dariah.eu/ <https://cosmotool.de.dariah.eu/>`_. Über diese Dokumentation hinausgehende Informationen zum Cosmotool und der dieser zu Grunde liegenden DFA werden im Abschnitt :ref:`eigene_veröffentlichungen` zusammengestellt.
.. image:: ./pics/screenshot_personensuche.png
.. _screenshot_termcloud:
.. figure:: ./pics/screenshot_termcloud.png
Signifikante Terme für eine Personengruppe
.. toctree::
:maxdepth: 2
......
......@@ -4,15 +4,18 @@ Graphenmodell
-------------
Zusammenhänge zwischen Entitäten (Person, Ort, Zeit, Idee) werden im Cosmotool zukünftig in Form eines gewichteten Graphen modelliert. Entitäten werden dabei durch Knoten, Bezüge zwischen den Entitäten durch Kanten repräsentiert. Aufgrund der typischen Unsicherheit erkannter Bezüge – insbesondere im Fall der Identifizierung durch automatische Verfahren – wird eine errechnete Konfidenz in Form des Kantengewichts abgebildet.
Erste Arbeiten der Implementierung wurden hierzu bereits durchgeführt. Wissenschaftlich spannend ist hierbei insbesondere die Integration von Konfidenzwerten (Kantengewichte), sowie die Transparenz deren Herleitung. Am Lehrstuhl Medieninformatik1 ist hierzu eine Abschlussarbeit ausgeschrieben, um an dieser Stelle zusätzliche, fundierte Perspektiven zu generieren.
Erste Arbeiten der Implementierung wurden hierzu bereits durchgeführt. Wissenschaftlich spannend ist hierbei insbesondere die Integration von Konfidenzwerten (Kantengewichte), sowie die Transparenz deren Herleitung.
Qualitative Verfahren
---------------------
Der Erfolg quantitativer Verfahren für die Erkennung und Einschätzung biographischer Ereignisse und insbesondere der Erkennung und Zuweisung von ideengeschichtlicher Aspekte ist insbesondere von der gezielten Steuerbarkeit durch qualifizierte Experten abhängig.
.. image:: ./pics/qualitative_quantitative_interaktion.png
:numref:`qualitativ_quantitativ` zeigt die drei im Cosmotool vorgesehenen Stellen der qualitativen Interaktion: Neben manueller Korrekturmöglichkeiten an biographischen Profilen soll insbesondere die Veränderung von Heuristiken und Modellen, also des in semi-automatischen Verfahren angewendeten Domänenwissens ermöglicht werden. Zudem erhalten Anwender des Systems Möglichkeiten die Zusammenstellung betrachteter Datenbasen zu verändern. Dies bedeutet die Eintragung, Veränderung oder Löschung von Einträgen in der dedizierten Collection Registry bzw. auch die Selektion relevanter Quellen zum Anfragezeitpunkt.
Die obige Abbildung zeigt die drei im Cosmotool vorgesehenen Stellen der qualitativen Interaktion: Neben manueller Korrekturmöglichkeiten an biographischen Profilen soll insbesondere die Veränderung von Heuristiken und Modellen, also des in semi-automatischen Verfahren angewendeten Domänenwissens ermöglicht werden. Zudem erhalten Anwender des Systems Möglichkeiten die Zusammenstellung betrachteter Datenbasen zu verändern. Dies bedeutet die Eintragung, Veränderung oder Löschung von Einträgen in der dedizierten Collection Registry bzw. auch die Selektion relevanter Quellen zum Anfragezeitpunkt.
.. _qualitativ_quantitativ:
.. figure:: ./pics/qualitative_quantitative_interaktion.png
Zusammenwirken qualitativer und quantitativer Verfahren
Wortfelder
----------
......@@ -30,19 +33,28 @@ Vergleichbar mit der Generischen Suche [#linkSuche]_ von DARIAH-DE ist auch das
- heterogenen Datenmodelle (unterschiedliche Schemata, unstrukturierte Daten)
- integrative Sichten auf biographische Profile von Personen erreichen möchte.
War der Prototyp des Cosmotools in seiner initialen Entwicklung in den ersten Phasen (2011-2016) von DARIAH-DE noch als autonome Komponente implementiert worden, um in möglichst kurzer Zeit erste vorzeigbare Ergebnisse zu generieren, so hatte sich bereits im Verlauf der Entwicklungen gezeigt, dass die synergetische Entwicklung der Werkzeuge sowohl für die Komponenten der DARIAH-DE Datenföderationsarchitektur (DFA, vgl. Abbildung) wesentliche Vorteile sowohl für die DFA, als auch die Umsetzung des Cosmotools selbst.
War der Prototyp des Cosmotools in seiner initialen Entwicklung in den ersten Phasen (2011-2016) von DARIAH-DE noch als autonome Komponente implementiert worden, um in möglichst kurzer Zeit erste vorzeigbare Ergebnisse zu generieren, so hatte sich bereits im Verlauf der Entwicklungen gezeigt, dass die synergetische Entwicklung der Werkzeuge sowohl für die Komponenten der DARIAH-DE Datenföderationsarchitektur (DFA, :numref:`dfa_architektur`) wesentliche Vorteile sowohl für die DFA, als auch die Umsetzung des Cosmotools selbst.
.. _dfa_architektur:
.. figure:: ./pics/dfa_architektur.png
Zusammenwirken qualitativer und quantitativer Verfahren
.. image:: ./pics/dfa_architektur.png
So werden die dem Cosmotool zu Grunde liegenden Datenquellen im Rahmen einer dedizierten Instanz der Collection Registry verwaltet. Schemata und Regeln zur Verarbeitung biographischer Daten werden in der Schema Registry definiert.
Das semantische Cluster Biographien (nach Definition in [Gr16a]), welches mit Hilfe der Komponenten der DFA entwickelt wird. Schemata (hier S6, S7, S8 und S9) werden durch Mappings assoziiert.
Das semantische Cluster Biographien (nach Definition in [Gr16a], :numref:`biocluster`), welches mit Hilfe der Komponenten der DFA entwickelt wird. Datenmodelle (hier M1...M4) werden durch Mappings assoziiert.
.. _biocluster:
.. figure:: ./pics/biocluster.png
.. image:: ./pics/biocluster.png
Semantisches Cluster Biographien (vereinfacht)
Der Bildschirmausschnitt in Abbildung 4 zeigt einen Ausschnitt der Modellierung von Personeneinträgen aus Wikipedia. Hier wurde z. B. spezifiziert, wie die in den Artikel integrierten strukturierten Daten (im Ausschnitt) zu entnehmen sind, Textstellen mit Hilfe von NLP zu verarbeiten sind und gefundene biographische Evidenz auf die biographischen Profile zu mappen sind. Für Details verweisen wir an dieser Stelle auf [Gr16c].
Der Bildschirmausschnitt in :numref:`screenshot_dme` zeigt einen Ausschnitt der Modellierung von Personeneinträgen aus Wikipedia. Hier wurde z. B. spezifiziert, wie die in den Artikel integrierten strukturierten Daten (im Ausschnitt) zu entnehmen sind, Textstellen mit Hilfe von NLP zu verarbeiten sind und gefundene biographische Evidenz auf die biographischen Profile zu mappen sind. Für Details verweisen wir an dieser Stelle auf [Gr16c].
.. image:: ./pics/screenshot_dme_cundc.png
.. _screenshot_dme:
.. figure:: ./pics/screenshot_dme_cundc.png
Modellierung im Data Modeling Environment (DME)
.. [#linkSuche] unter https://search.de.dariah.eu
\ No newline at end of file
Nutzerdokumentation
===================
Das Cosmotool ermöglicht die Suche nach Personen anhand von Namen und Begriffen. Über die Betrachtung einzelner Personen hinaus wird die Gruppierung von Personen, deren Auswertung auf Basis signifikanter Terme, sowie die Errechnung von Kandidaten zur Erweiterung von Gruppen unterstützt.
Das Cosmotool ermöglicht die Suche nach Personen anhand von Namen und Begriffen. Über die Betrachtung einzelner Personen hinaus wird auch deren Gruppierung, Auswertung auf Basis signifikanter Terme und die Ermittlung von Kandidaten für die Erweiterung von Personengruppen unterstützt.
Personensuche
-------------
Um eine bestimmte Person aus der Menge der biographischen Profile zu finden, klicken Sie auf *Personensuche* in der Spalte *Suche*.
Geben Sie den Namen einer Person in die Leiste *Suchausdruck* ein, sowie den Zeitraum in dem gesucht werden soll in der Leiste *Geboren ab*, *bis*.
Die Suche nach Personen in der Menge der verfügbaren biographischen Profile ist über den Punkt *Personensuche* unter dem Navigationselement *Suche* zugänglich (vgl. :numref:`screenshot_personensuche`). Neben dem Namen der gesuchten Person im Feld *Suchausdruck* können Zeiträume zur weiteren Einschränkung der Suchergebnisse durch Angabe von *Geboren ab*, *bis* und *Verstorben ab*, *bis* angegeben werden.
.. _screenshot_personensuche:
.. figure:: ./pics/screenshot_personensuche.png
Personensuche im Cosmotool
Beispiel: das biographische Profil von Thomas Mann
Indexierte Details werden durch einen Klick auf ein einzelnes Suchergebnis geladen und dargestellt (:numref:`screenshot_thomas_mann`).
.. _screenshot_thomas_mann:
.. figure:: ./pics/Cosmotool_thomas_mann2.png
Das biographische Profil von Thomas Mann
Wortlisten-Suche
---------------------
Das Erstellen der Wortlisten erlaubt dem Nutzer nach Biographien zu suchen, die bestimmte Wörter beinhalten. Dies ist hilfreich um Akteure mit bestimmten Merkmalen zu finden.
In das Feld *Positivterme* können, durch ein Komma getrennt, mehrere Wörter eingegeben werden. Durch die *Negativterme* kann der Benutzer* seine* Suche präzisieren.
Die Suche auf Basis von Wortlisten (vgl. :numref:`screenshot_wortfeldsuche`) erlaubt die Suche nach Biographien, die bestimmte Worte beinhalten. Dies ist hilfreich um Akteure mit bestimmten Merkmalen zu finden. In das Feld *Positivterme* können, durch Kommata getrennt, mehrere Wörter eingegeben werden. Durch die *Negativterme* können Suchanfragen weiter präzisiert werden.
.. _screenshot_wortfeldsuche:
.. figure:: ./pics/cosmotool_sign_terme_.png
Wortlisten-Suche im Cosmotool
Personengruppen und Kandidaten
------------------------------
Cosmotool erlaubt die Definition von Personengruppen und die Suche nach neuen Kandidaten für deren Erweiterung. Hierfür muss zunächst eine Gruppe an Akteuren zusammengestellt werden, die aus der Sicht des Nutzers Gemeinsamkeiten hat.
Das Cosmotool ermöglicht zudem die Definition von Personengruppen und die Suche nach neuen Kandidaten für deren Erweiterung. Hierfür ist zunächst eine Gruppe von Akteuren zusammenzustellen, die aus Sicht des Anwenders über Gemeinsamkeiten verfügt. Für die Erstellung und Speicherung von Personengruppen (:numref:`screenshot_gruppensuche`) ist eine personenbezogene Anmeldung am Cosmotool [#login]_ erforderlich.
.. _screenshot_gruppensuche:
.. figure:: ./pics/cosmotool_Gruppensuche.png
Zentrale Schaltflächen für den Umgang mit Personengruppen
Signifikante Terme
++++++++++++++++++
Mit Hilfe der Funktionalität zur Erstellung von Personengruppen können Anwender des Cosmotools einzelne Personen in gruppierter Form analysieren. Derzeit ist eine Auswertung der Personengruppen anhand signifikanter Termen implementiert. Hierbei werden Terme errechnet, die in den Biographien der Gruppe - im Vergleich zu allen anderen Biographien - relativ häufig auftreten.
Mit Hilfe der Funktionalität der Personengruppen können Anwender des Cosmotools einzelne Personen in gruppierter Form analysieren. Derzeit ist eine Auswertung der Personengruppen anhand signifikanter Termen implementiert. Hierbei werden Terme errechnet, die in den Biographien der Gruppe – im Vergleich zu allen anderen Biographien – relativ häufig auftreten.
Der Bildschirmausschnitt in :numref:`screenshot_significant_terms` zeigt die Berechnung der signifikanten Terme für eine kleine Beispielgruppe *Katholiken*. Die berechneten Terme werden in einer Tabelle sowie einer *Termwolke* dargestellt.
.. _screenshot_significant_terms:
.. figure:: ./pics/screenshot_significant_terms.png
Signifikante Terme und Mitglieder der Beispielgruppe „Katholiken“
Der Bildschirmausschnitt in :numref:`screenshot_significant_terms` zeigt die Berechnung der signifikanten Terme für eine Beispielgruppe *Katholiken*, die eine recht geringe inhaltliche Kohäsion aufweist. Die berechneten Terme werden in einer Tabelle sowie einer *Termwolke* dargestellt.
Kandidatensuche
+++++++++++++++
Die errechneten signifikanten Terme dienen über die Beschreibung der Personengruppe hinaus auch der Ermittlung geeigneter Kandidaten zur Erweiterung der Gruppe. Hierfür dienen die Terme als Anfrageterme, die jeweils durch ihren Score gewichtet werden. Errechnete Terme können wie aus :numref:`screenshot_significant_terms` ersichtlich durch den Anwender gesperrt werden. Auch können durch den Nutzer manuelle Terme hinzugefügt werden.
Die errechneten signifikanten Terme dienen über die Beschreibung der Personengruppe hinaus auch der Ermittlung geeigneter Kandidaten zur Erweiterung der Gruppe. Hierfür werden die Terme – gewichtet durch ihren jeweiligen Score – als Anfrageterme verwendet. Errechnete Terme können wie in :numref:`screenshot_significant_terms` ersichtlich durch den Anwender gesperrt werden. Auch können durch den Nutzer manuelle Terme hinzugefügt werden.
Die Ergebnisse einer Suche nach Kandidaten zur Erweiterung der Beispielgruppe „Katholiken“ wird in :numref:`screenshot_candidates` dargestellt.
.. _screenshot_candidates:
.. figure:: ./pics/screenshot_candidates.png
Erste Kandidaten zur Erweiterung der Beispielgruppe „Katholiken“
\ No newline at end of file
Erste Kandidaten zur Erweiterung der Beispielgruppe „Katholiken“
.. [#login] DARIAH-DE Accounts können unter https://auth.dariah.eu/ registriert werden
\ No newline at end of file
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment