Datenabgleich mit OpenRefine

Oft möchte man zwei Tabellen miteinander verbinden, um die Daten aus der einen Tabelle in die andere zu übernehmen. Das ist in Excel mit einem SVerweis überhaupt kein Problem, solange es eine Spalte in beiden Tabellen gibt die exakt übereinstimmt (z.B. der amtliche Gemeindeschlüssel für Kommunen in Deutschland.

Schreibweisen von Namen, Berufsbezeichnungen, Adressen und anderen Bezeichnungen sind aber oft nicht identisch, sondern weichen in Kleinigkeiten voneinander ab. Da gibt es den Gerhard F. Müller und den Gerhard Friedrich Müller genauso wie Neustadt adW, an der Weinstrasse, a.d. Weinstraße usw.  Viele Möglichkeiten also, die dazu führen, dass der SVerweis ins Leere (#NV) führt.

Um diesem Problem zu entkommen benötigt man eine unscharfe Suche, die OpenRefine mit seinem Reconciling-Service (Abgleich-Algorithmus) anbietet. Grundsätzlich bietet dieser Service extrem viele (und komplexe) Möglichkeiten.

Für die eigenen Zwecke gibt es von der Open Knowledge Foundation ein Tool, mit dessen Hilfe man eine beliebige CSV-Datei als eigenen Reconciling-Service zur Verfügung stellen kann.

Dieser Service greift auf die zur Verfügung gestellte CSV-Datei zu und schlägt je nach eingestelltem Abgleich-Algorithmus Kandidaten für das Matching vor. Damit wird im Hintergrund eine eindeutige ID für das Matching vergeben, so dass man anschließend auf die weiteren Daten (Spalten) in der CSV-Datei zugreifen kann.

Schritt für Schritt Anleitung (Windows)

  1. Die CSV-Datei für den Abgleich vorbereiten.
    1. Sie muss für den Abgleich Komma-separiert sein (Semikolon führt zu Fehlern!). Gegebenenfalls in Notepad+ oder einem anderen Texteditor mit Suchen&Ersetzen alle Semikola durch Kommata ersetzen.
    2. Die Datei muss außerdem eine Spalte mit einem eindeutigen Schlüssel/ID enthalten, ob fortlaufende Nummer oder ein anderer Code ist egal, nur muss jede Zeile eine eindeutigen Schlüssel besitzen.
    3. Diese CSV-Datei muss im selben Verzeichnis wie die Batch- bzw. Java-Tool liegen (Schritt2&3).
  2. Das Java-Tool bei der OKFN herunterladen
  3. Da das Starten des Tools unter Windows etwas hakelig sein kann startet man am Besten mit Hilfe einer Batchdatei. Dazu eine leere Textdatei erstellen und folgenden Code einkopieren und an die eigenen CSV-Datei anpassen (Name der Spalte für die Suche und Name der Spalte mit eindeutigen Schlüssel. Anschließend unter dem Namen „Start_Reconcile.bat“ im selben Verzeichnis wie das Jar-File und die für den benutzte CSV-Datei abspeichern.
  4. OpenRefine wie üblich starten und ein eigenes Projekt öffnen. In der Spalte mit den Daten für den Abgleich im Spaltenmenu „Reconcile“  -> „Start reconciling“ wählen und im folgenden Menu den Eintrag „CSV Reconciliatione Service“ wählen. Die weiteren Einstellungen sind hier zunächst nicht von Belang.
  5. Je nach Größe der zur Verfügung gestellten CSV-Datei kann der Abgleich einige Minuten benötigen.
  6. Reconcile-FunktionenDanach stehen in verlinkte Matching-Vorschlägen zur Verfügung.
    Mit einem Klick auf das Häkchen (1) übernimmt man den Vorschlag. Mit einem Klick auf (2) übernimmt diesen Vorschlag für alle gleichgeschriebenen Einträge. Unter (3) kann man in der CSV-Datei nach weiteren Vorschlägen suchen lassen. Ein Klick auf den Matchingvorschlag öffnet in einem neuen Fenster ein Blick auf den Datensatz. Das kann gegebenenfalls hilfreich sein, um nicht eindeutige Vorschläge durch weitere Informationen aus der CSV-Datei zu plausibilisieren.
  7. In der linken Navigation von OpenRefine gibt es die Möglichkeit die besten Kandidaten über das Scoring als Facette einzugrenzen (siehe Bild). So kann man bspw. allen Einträgen, die ein Scoring von höher als 0.8 haben den jeweils besten Kandidaten automatisch zuweisen. Diese und weitere Funktionen um die Abgleichergebnissen weiter zu verarbeiten finden sich im Reconciling-Menu der Tabellenspalte.Scoring der Matching-Vorschläge
  8. Ist der Abgleich fertig gestellt wird eine neue Spalte mit der eindeutigen ID aus der CSV-Datei angelegt. Dazu mit „Edit Column -> add column based on this column” und dem GREL-Befehl „cell.recon.match.id“ in der Spalte mit dem Matching eine neue Spalte anlegen.
  9. Um nun Daten aus der CSV-Datei in das eigene Projekt zu holen muss auch die CSV-Datei als Projekt mit OpenRefine angelegt werden. Dazu die Datei als Refine-Projekt hochladen. In der Spalte mit der eindeutigen ID erzeugt man nun erneut eine neue Spalte mit dem GREL-Befehl:cell.cross(„Name desRefine Projekts der CSV-Datei“, „Spaltentitel der gemeinsamen Spalte“).cells[„Spaltentitel des gesuchten Werts“].value[0]
Veröffentlicht in Datenjournalismus | Getaggt , , , | Hinterlassen Sie einen Kommentar

Tipps & Tricks aus dem Recherchealltag – Handout für den #SWROK14 – Teil 2

Google ist wie ein guter Butler…

Er versucht ständig seinem Herrn zu gefallen und gibt ihm daher das wonach er fragt, bzw. das was dem Herrn zuvor gefallen hat. Das führt zur bekannten Filterblase (Eli Pariser). Mit den Simpsons anschaulich erklärt hat das auch der Google-Konkurrent Duckduckgo unter Don’t bubble us

Konsequenzen in der Recherche sind u.a.:

  • das Besondere/Andere ist nicht ohne weiteres zu finden, der Mainstream und meine eigenen Präferenzen/Überzeugungen haben oft Vorrang.
  • Geo-IP, Suchprotokolle, häufig  geänderte Algorithmen unterschiedliche Schreibweisen usw. sorgen dafür, dass insbesondere bei angemeldeten Google-Usern und geringen Datenschutzeinstellungen kaum ein User bei gleichen Suchbegriffen die gleichen Trefferlisten erhält.

Überblick Suchoperatoren im Schnelldurchlauf

[Filetype:pdf] schränkt die Suche auf PDF-Dateien ein. Gedanke dabei ist, dass insbesondere längere Studien, wissenschaftliche Artikel oder offizielle Papiere(Pressemitteilungen, Aufsätze, Protokolle) idR als PDF veröffentlicht werden. Lässt sich aber auch auf Powerpoint-Folien (ppt), Word-Dateien (doc, docx) oder Excel-Dateien anwenden (xls, xslx)

[Site:www.domain.de] Nur auf bestimmten Seiten suchen Mit der Site-Suche können sie die Google-Suche nutzen, um auf einer Domain zu suchen. Bspw. findet *site:facebook.com  „Suchbegriff“+ alle öffentlichen Seiten auf Facebook die den „Suchbegriff“ enthalten.

[„…“]- Phrasensuche Mit den Anführungszeichen werden die Suchbegriffe in dieser exakten Reihenfolge und in exakt dieser Schreibweise gesucht.

[*] Wildcard für beliebige Begriffe oder Zahlen Das Sternchen steht für ein beliebiges Wort (entsprechend nutzt man mehrere * für mehrere Worte), das vor bzw. nach dem Suchbegriff kommt. Sinnvoll um Worte, Zitate, Zahlen oder Aussagen zu suchen, die man nicht exakt kennt. Z.B. [berliner stadtschloss kostet * millionen Euro], das Sternchen ist aber auch kombinierbar mit anderen Suchbegriffen wie z.B. [site:www.uni-*.de] (sucht auf den Webseiten deutscher Universitäten).

[OR] Oder-Suche für Alternativen und Synonyme Mit der logischen ODER-Suche kann man mehrere alternative Suchbegriffe mit einer Suche erledigen (statt OR kann man auch den Senkrechtstrich | verwenden). Z.B. findet [geschätztes Einkommen Jauch OR Gottschalk OR Kerkeling] Seiten mit Angaben zum geschätzten Jahreseinkommen von mindestens einem der drei Prominenten.

[-] NOT-Recherche lässt Suchbegriffe ausschließen. Mit dem Minuszeichen ohne Leerzeichen gefolgt von einem Suchbegriff können Begriffe von der Suche ausgeschlossen werden. Z.B. lassen sich mit [-site:.at OR –site:.ch] österreichische und schweizer Webseiten ausschließen.

[..] für Zahlenbereiche – Mit Zahlenbereichen zu suchen ist immer dann sinnvoll, wenn man die exakte Zahl nicht kennt bzw. die exakte Zahl nicht relevant ist. „Junge Menschen“ könnte man so mit [„18..30 jährige“] suchen, regionale Adressen ließen sich mit Postleitzahlenbereichen recherchieren und wer Sportwagen mit zu viel PS sucht dürfte damit „mit 500..800 PS“ Sportwagen fündig werden.
Googlesuche

Recherchestrategien im Netz

1.       Was suche ich eigentlich?

Welche Ergebnisse erwarte ich? Welche Formulierungen sind darin vermutlich enthalten? Wie wäre die ideale Antwort? Diese Formulierungen sollte man dann als Suchbegriffe verwenden (also so etwas wie „* ist die größte hunderasse“).

2.       Wer hat das was ich suche?

Was sind die möglichen Quellen für diese Information bzw. wer kann dazu überhaupt etwas wissen? Was davon will ich überhaupt finden? Entsprechend sollte man dann direkt dort suchen z.B. site:destatis.de

3.       Was weiß ich schon?

Eine Vorrecherche ist oft hilfreich und Wikipedia oder meinungsgefärbte Presssemitteilungen sind dabei durchaus legitime Quellen. So finde ich präzisere Suchbegriffe die meine Ergebnisse schnell deutlich verbessern und Ballast aus der Trefferliste aussieben. Zu denken wäre da an Aktenzeichen, medizinische Wirkstoffe, lateinische Namen von Tieren/Pflanzen, Gesetzesnamen usw.

4.       Muster erkennen

Bestimmte Treffer will ich in meiner Trefferliste nicht sehen, sei es weil ich sie bereits kenne oder weil sie für mich irrelevant sind. Daher sollte man darauf achten welche Muster in den Ergebnissen zu erkennen sind (z.B. tauchen Begriffe wie „Warenkorb“ oder „Einkaufswagen“ naturgemäß auf Shoppingseiten auf, die man oftmals nicht sehen möchte) und diese entsprechend dann mit der NOT-Recherche (Minus-Zeichen) aussieben(-site:amazon.de oder –warenkorb|einkaufswagen).

Veröffentlicht in Allgemein, Recherchetipp | Getaggt , , | Hinterlassen Sie einen Kommentar

Tipps & Tricks aus dem Recherchealltag – Handout für den #SWROK14 – Teil 1

Eigentlich ging es im Kurs mehr um alltägliche Recherchepraxis und weniger um fummeligen Nerdkram. Aber die Beschäftigung mit der eigenen privaten Suchmaschine ist nicht nur pädagogisch sinnvoll, weil man damit einen interessanten Blick unter die Motorhaube einer Suchmaschine werfen kann, sondern ist auch für bestimmte journalistische Zwecke spannend. Daher hier als erstes der Link auf die Yacy – Open Source Suchmaschine. Yacy ist recht einfach zu nutzen und gibt einem viel Freiheit zu bestimmen was man mit der Suchmaschine machen möchte.

Der Werkzeugkasten für die Onlinerecherche

Ein anderes technisches Handwerkzeug sind diverse Firefox-Erweiterungen.

Warum ich Firefox präferiere? In erster Linie aus Gewohnheit, weil mir die Opensource-Idee gefällt und mir die naheliegende Alternative Google Chrome ein flaues Gefühl im Magen verursacht…

Wer Google Chrome nutzt kann diese Addons zwar direkt nicht nutzen, aber es gibt eigentlich für all diese Erweiterungen entsprechende Lösungen auch im Chrome.

Adblock – Werbeblocker. Der Vorteil: Mehr Platz auf dem Bildschirm und weniger Ablenkung. Als professioneller Rechercheur will ich keine Werbung sehen (im privaten ist das dann tw. wieder anders). Der Nachteil: Weniger Einnahmen für Onlinewerber und die, die davon leben müssen. Seltener Haken: Der Adblock blockiert auch gewünschte (Javascript-)Funktionen auf Webseiten.

Scrapbook – Lokal auf der eigenen Festplatte Webseiten im Originallayout abspeichern, dabei markieren/editieren/kommentieren, in Ordnern organisieren bzw. später dann in den Recherchergebnissen noch einmal recherchieren. Funktioniert auch als ein Schmalspur-Minicrawler…

Update Scanner – Webseiten im Hintergrund auf Änderungen überwachen. Nützlich um von langersehnten/angekündigten Pressemitteilungen umgehend zu erfahren oder Änderungen in Twitterprofil/Impressum o.ä. mitzukriegen.

Fireshot – Screenshots von ganzen Webseiten anfertigen und mit einfachem Bildeditor bearbeiten/kommentieren. Nützlich insbesondere für lange Scroll-Webseiten. Z.B. um die endlose Kommentarspalte zu einem Onlienartikel zu dokumentieren.

Videodownloadhelper – Videos lokal sichern als Nachweis. Für den Privatgebrauch aber eher Tutorial/Screencast/Vortragsvideos in MP4-Herunterladen und auf dem Tablet/Smartphone unterwegs mal in Ruhe anschauen.

Lesezeichenleiste

Eine sehr nützliche Angelegenheit ist die konsequente Nutzung der Lesezeichenleiste. Die Lesezeichenleiste ist quasi die Kurzwahl im Browser. Hier gehören nützliche Bookmarklets (wie z.B. Pocket, Printwhatyoulike oder Google Translate) rein. Außerdem sind dort die wichtigsten Bookmarks (Nachrichtenticker, Datenbanken, Nachschlagewerke) und vor allem Ordner für Bookmarks abgelegt, so dass man alles notwendige innerhalb des Browsers und dazu auch noch schnell griffbereit hat.

Sinnvolle Ordner-Kategorien sind:

Recherche – Hier kommen die ganzen Fundstücke zu einer aktuellen Recherche rein.

Tools – Hier sind die Lesezeichen von häufiger verwendeten Tools drin.

Später Lesen – Was man halt so vor hat einmal in Ruhe später zu lesen.

Suchmakros – ausdifferenzierte komplexere Suchanfragen, die sich mit geringer Anpassung immer wieder lohnen (siehe auch Blogeintrag), sollte man auch als Bookmark ablegen.

Beispiele für Suchmakros

Die Suchmakros abschicken und den jeweils aktuell benötigten Suchbegriff ergänzen…

(umfrage|befragung|mehrheit|befragten|bundesbürger)(emnid|Forsa|gallup|Psephos|allensbach|gfk|Infratest|dimap|YouGov|politbarometer|“forschungsgruppe wahlen“|Meinungsforschungsinstitut|marktforscher|OmniQest|infas)

(Wissenschaftler|Experte|Gutachter|Sachverständige|Fachmann|Spezialist) („Universität Tübingen|Mainz|Heidelberg|Stuttgart|Freiburg|Mannheim|Karlsruhe|Ulm|Hohenheim“)

Apps anpinnen als Shortcuts

Eine weitere nützliche Funktion ist das Anpinnen/Anheften von Tabs im Firefox, die sogenannten App-Tabs. Angeheftete Tabs, lassen sich nicht „aus Versehen“ schließen und sind beim nächsten Firefox-Start auch wieder sofort geöffnet.

Das lohnt sich für Tabs mit Anwendungen, die im digitalen Alltag sowieso die ganze Zeit offen sind: Tweetdeck, Webmail, Cloudspeicher (Owncloud/Dropbox), RSS-Reader oder Aufgabenplaner.

 

 

Veröffentlicht in Allgemein, Recherchetipp, Tools | Getaggt , , | Hinterlassen Sie einen Kommentar