Aufbereitung

von der Datensammlung bis zur Datenbereinigung

Die Datenaufbereitung untergliedert sich in drei Teilaufgaben: die Datensammlung, die Datenextraktion und die Datenbereinigung. Jenachdem, ob Ihnen die benötigten Daten bereits zur Verfügung stehen oder diese erst aus öffentlichen Quellen erhoben werden müssen, ist dieser Arbeitsschritt einfach oder aufwändiger.

Stehen die Daten zur Verfügung, dann vereinbaren wir ein geeignetes Austauschformat, in dem Sie die Daten bereitstellen. Bei vertraulichen Daten schließen wir eine entsprechende Vertraulichkeitsvereinbarung ab, bei personenbezogenen Daten anonymisieren Sie die Daten zusätzlich und wir vereinbaren einen sicheren Übermittlungsweg.

Stehen die Daten noch nicht zur Verfügung, führen wir gerne Recherchen nach geeigneten Datenquellen durch und entwickeln einen Weg, wie wir auf legale Weise die Daten sammeln können.

In einigen Fällen kann es sich als notwendig erweisen die relevanten Daten erst aus den gesammelten Daten zu extrahieren. Insbesondere bei der Verarbeitung unstrukturierter Daten sind mitunter erst die Begriffe aus den bereitgestellten Dokumenten zu extrahieren, zusammenzufassen und nach ihrer Relevanz zu klassifizieren.

(c) iStock.com, vaeenma

Bei jedem Projekt muß davon ausgegangen werden, dass die Daten fehlerbehaftet sind. Dies kann von fehlenden Einzeldaten und einfachen Tippfehlern über Ausreißer, i.E. nicht plausiblen Daten, bis hin zu inhaltlich fehlerhaften Daten reichen.

Ziel der Datenbereinigung ist es, diese Makel zu identifizieren, die Daten zu bereinigen und in eine für die weitere Verarbeitung geeignete Form zu bringen. Oder anders ausgedrückt: die Datenbereinigung dient der Sicherstellung einer hohen Datenqualität für die anschliessenden Bearbeitungsschritte.

Nebenbei: Die Datenbereinigung ist in der Regel unumgänglich. Je nach Qualität Ihrer Daten und ihrem Erfassungsprozess müssen hierfür zwischen 60%– 80% des Projektaufwands eingeplant werden.

 

Hat sich im Vorgespäch ergeben, dass Sie ein Vorhersagemodell benötigen, dann werden im Anschluß an die Datenbereinigung die Daten in drei Teilmengen aufgeteilt, die jeweils der Modellierung, der Modellvalidierung und dem Test des finalen Modells dienen.

Hierbei handelt es sich um good data analytical practice mit der sichergestellt werden kann, dass der Analyst bei der initialen Dateninspektion keine Kenntnis von den Daten erlangt, gegen die das Vorhersagemodell überprüft wird. Ein (un-)beabsichtigtes "tuning" des Vorhersagemodells lässt sich hierdurch vermeiden und eine allgemeinere Gültigkeit des Modells kann sichergestellt werden.