Sie sind hier

Open Semantic Desktop Search

Freie Software für datenschutzfreundliche Suchmaschine und Recherche-Plattform für investigativen Journalismus

Zur Tagung des Netzwerk Recherche ist die Suchmaschine Open Semantic Desktop Search VM zum unabhängigen und datenschutzfreundlichen Erschliessen und Analysieren von Dokumentenbergen nun erstmals auch als deutschsprachige Version (Special Edition zur Netzwerk Recherche Tagung) verfügbar.

Dank mächtiger Open Source Basis kann die freie Software als unter Linux, Windows oder Mac lauffähige virtuelle Maschine kostenlos heruntergeladen, genutzt, weitergegeben und weiterentwickelt werden.

Dokumentenberge erschliessen

Ob grösserer Leak oder Zusammenwürfeln oder (wieder) Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Hin und wieder müssen größere Datenberge bzw. Dokumentenberge erschlossen werden, die so viele Dokumente enthalten, dass Mensch diese Masse an Dokumenten nicht mehr alle nacheinander durchschauen und einordnen kann. Auch bei kontinuierlicher Recherche zu Fachthemen sammeln sich mit der Zeit größere Mengen digitalisierter oder digitaler Dokumente zu grösseren Datenbergen an, die immer weiter wachsen und deren Informationen mit einer Suchmaschine für das Archiv leichter auffindbar bleiben.

Moderne Tools zur Datenanalyse in Verbindung mit Enterprise Search Suchlösungen und darauf aufbauender Recherche-Tools helfen (halb)automatisch.

Unabhängiges Durchsuchen und Analysieren grosser Datenmengen

Damit können investigativ arbeitende Journalisten selbstständig und auf eigener Hardware datenschutzfreundlich hunderte, tausende, hunderttausende oder gar Millionen von Dokumenten oder hunderte Megabyte, Gigabytes oder gar einige Terabytes an Daten mit Volltextsuche durchsuchbar machen.

Automatische Datenanreicherung und Erschliessung mittels Hintergrundwissen

Zudem wird anhand von konfigurierbaren Hintergrundwissen automatisch eine interaktive Navigation zu in Dokumenten enthaltenen Namen von Bundestagsabgeordneten oder Orten in Deutschland generiert oder anhand Textmustern strukturierte Informationen wie Geldbeträge extrahiert.

Mittels Named Entities Manager für Personen, Organisationen, Begriffe und Orte können eigene Interessenschwerpunkte konfiguriert werden, aus denen dann automatisch eine interaktive Navigation (Facettensuche) und aggregierte Übersichten generiert werden.

Automatische Datenvisualisierung

Diese lassen sich auch visualisieren: So z.B. die zeitliche Verteilung von Suchergebnissen als Trand Diagramm oder durch gleichzeitige Nennung in Dokumenten abgeleitete Verbindungen als Netzwerk bzw. Graph.

Automatische Texterkennung (OCR)

Dokumente, die nicht im Textformat, sondern als Grafiken vorliegen, wie z.B. Scans (auch innerhalb von PDF-Dateien) werden automatisch durch automatische Texterkennung (OCR) angereichert und damit auch der extrahierte Text durchsuchbar.

Unscharfe Suche mit Listen

Ansonsten ist auch das Recherche-Tool bzw. die Such-Applikation "Suche mit Listen" integriert, mit denen sich schnell und komfortabel abgleichen lässt, ob es zu den einzelnen Einträgen in Listen jeweils Treffer in der durchsuchbaren Dokumentensammlung gibt.

Mittels unscharfer Suche findet das Tool auch Ergebnisse, die in fehlerhaften oder unterschiedlichen Schreibweisen vorliegen.

Semantische Suche und Textmining

Im Recherche, Textanalyse und Document Mining Tutorial zu den enthaltenen Recherche-Tools und verschiedenen kombinierten Methoden zur Datenanalyse, Anreicherung und Suche wird ausführlicher beschrieben, wie auch eine große heterogene und unstrukturierte Dokumentensammlung bzw. eine grosse Anzahl von Dokumenten in verschiedenen Formaten leicht durchsucht und analysiert werden kann.

Virtuelle Maschine für mehr Plattformunabhängigkeit

Die nun auch deutschsprachig angebotene und mit deutschen Daten wie Ortsnamen oder Bundestagsabgeordneten vorkonfigurierte virtuelle Maschine Open Semantic Desktop Search ermöglicht nun auch auf einzelnen Desktop Computern oder Notebooks mit Windows oder iOS (Mac) die Suche und Analyse von Dokumenten mit der Suchmaschine Open Semantic Search.

Dank einer virtuellen Maschine lässt sich ein solche Suchmaschine so nicht nur auf einem gemeinsam nutzbaren Linux Server oder für besonders sensible Dokumente mit dem verschlüsselten Live-System InvestigateIX als abgeschottetes System auf verschlüsselten externen Datenträgern installieren, sondern mit der Suchlösung Open Semantic Desktop Search auch einfach als virtuelle Maschine auch unter Windows oder auf einem Mac in der bzgl. weiterer Software und Daten bereits existierenden Systemumgebung betreiben.

Datenschutz & Unabhängigkeit: Grössere Unabhängigkeit von zentralen IT-Infrastrukturen und IT-Fachleuten

Damit ist das Recherchieren weitmöglichst unabhängig möglich: ohne teure, zentrale und von Administratoren abhängige Server, ohne von der Dokumentenanzahl abhängige teure Software-Lizenzen, ohne Internet und ohne spionierende Cloud-Dienste. Und weil die Einrichtung und Konfiguration möglichst einfach gehalten ist, ist das System auch für IT-Laien in Redaktionen und freie Journalisten einsetzbar, die nicht über Suchmaschinen- und IT-Spezialisten verfügen.

Datenanalyse und Suche finden auf dem eigenen Computer statt, nicht wie bei vielen anderen Lösungen in der sogenannten Cloud.

Netzwerk Recherche Edition noch Beta

Die zur Netzwerk Recherche Konferenz herunterladbare Special Edition ist noch eine Beta Version. Es wird sich also in den nächsten Wochen und Monaten noch einiges tun.

So sind bisher auch nur die aktuellen Bundestagsabgeordneten konfiguriert, die aus früheren Wahlperioden und die vielen Landtage noch nicht.

Auch die Geldbeträge sind noch nicht sortierbar, zeigen aber schonmal die Möglichkeiten automatischer Extraktion strukturierter Daten auf.

Trotzdem kann die Software bereits jetzt recht viel, das vielen sonst noch nicht so einfach möglich wäre.

Da Sie bei der Konfiguration der Virtual Box der virtuellen Maschine die Ordner mit den einzulesenden Dokumente "Read-Only", also nur im Lesemodus zur Verfügung stellen können und auch die Internet- bzw. Netzwerkverbindung der Virtuellen Maschine abstellen können, lässt sich jedoch nicht viel kaputt machen.

Weitere Userinterfaces und Anleitungen zur Konfiguration bzw. dem Import weiterer Informationsstrukturen z.B. aus der Wikidata (Datenbank von Wikipedia) sind geplant und können über Spenden, Feedback und Kritik oder als freie Software bzw. Open Source Projekt mit frei verfügbarem Quellcode auch durch Weiterentwicklung unterstützt werden.