Strukturierte vs. Unstrukturierte Daten

Thomas Dierl - 24.09.2020

Strukturierte vs. Unstrukturierte Daten

Strukturierte Daten: Vorteil & Beispiele

Bei strukturierten Daten handelt es sich um all jene Daten, die in einer immer gleichen Struktur und gleichem Format verfügbar sind. Darüber hinaus ist dieses Format bekannt bzw. dokumentiert. Der Vorteil solcher Daten ist, dass diese mittels Algorithmen oder einfachen Anweisungen innerhalb kurzer Zeit verarbeitet werden können.

Beispiele für strukturierte Daten

  • immer gleiche Zeilen in einer Excel Datei (z.B. Bestellungen)
  • Daten aus relationalen Datenbanken

Unstrukturierte Daten: Herausforderung & Beispiele

Im Gegensatz zu den strukturierten Daten sind unstrukturierte Daten nicht in einer Form verfügbar, die von einfachen Algorithmen oder Anweisungen verarbeitet werden können. Diese Daten kommen im alltäglichen Leben sehr häufig vor. Jedes E-Mail, jede Website besteht im Grunde aus unstrukturierte Daten. Die wesentlichen Informationen aus dem Text zu lesen war bisher die Aufgabe des Menschen. Ein fest vorgegebener Algorithmus schafft es in der Regel nicht, die vielen Möglichkeiten der Datendarstellungen zu nutzen.

Beispiele für unstrukturierte Daten

  • Inhalt einer E-Mail
  • Power-Point-Präsentationen
  • Webseiten-Inhalte
  • Textdateien
  • Videos

Semi-Strukturierte Daten: eine Mischform

Wenn strukturierte und unstrukturierte Daten gemischt auftreten, entstehen so genannte semi-strukturierte Daten. So können zum Beispiel in einer Datenbank lange Textfelder mit irgendwelchen undefinierten Daten auftreten. Wobei der Datensatz an sich dann selbst strukturiert ist und der Wert des Textfeldes unstrukturiert.

Beispiel für semi-strukturierte Daten

E-Mail: Empfänger, Betreffzeile und Absender besitzen eine Struktur, der eigentliche Text ist unstrukturiert –> als Gesamtpaket ist die E-Mail also semi-strukturiert

Welche Verarbeitungsmöglichkeiten gibt es?

  • Strukturierte Daten: Wie oben bereits angedeutet, lassen sich strukturierte Daten sehr einfach mittels Algorithmen und anschaulichen Anweisungen in Power Query oder Programmiersprachen verarbeiten. So entsteht beispielsweise mit wenigen Klicks die Summe von einzelnen Umsätzen. Die weiteren Vorteile in der Verarbeitung von strukturierten Daten sind vielfältig. Sie lassen sich unkompliziert in andere Datentypen konvertieren, als Zeichenketten zerteilen oder als Basis für weitere Berechnungen verwenden.

  • Unstrukturierte Daten: Bei unstrukturierten Daten sind all diese Möglichkeiten nicht gegeben. Solche Daten sind wie die Nadel im Heuhaufen irgendwo versteckt - und es gibt keine Regel, wie man diese Nadel findet. Aufgrund der großen Fortschritte im Bereich der neuronalen Netze (Forschungsbereich aus dem Feld der künstlichen Intelligenz) besteht heute die Möglichkeit, diese Netze auf die Suche nach einer speziellen Nadel zu trainieren. Nachdem man sie mit dieser Technik gefunden hat, lässt sie sich - den strukturierten Daten gleich - weiter verarbeiten.

  • Semi-strukturierte Daten: Gemischte Daten, zwei Herangehensweisen: ein Algorithmus verarbeitet den strukturierten Datensatz, und die speziell trainierten, neuronalen Netzwerke den unstrukturierten Part der Daten.

Unstrukturierter Daten verarbeiten: Chancen & Visionen

Laufende Verbesserungen in der Technik der neuronalen Netze bringen in den nächsten Jahren viele neue Möglichkeiten zur Verarbeitung strukturierter Daten. Zudem ist das Forschungsfeld der künstlichen Intelligenz groß. Weitere Technologien stehen bereits in den Startlöchern.

Realistische Zukunftsmusik

Die große Zielsetzung ist es, nicht nur eine spezielle Nadel in diesen unstrukturierten Daten zu finden. Je nach Anforderung soll das Lokalisieren anderer Nadeln möglich werden. Gar nicht so einfach angesichts des riesigen Daten-Heuhaufens. Bei status kwo glauben wir allerdings daran, dass mehrere Faktoren es uns in absehbarer Zeit erlauben, genau diese “Königsdisziplin” der Verarbeitung der unstrukturierten Daten weiter zu perfektionieren.

Faktoren, welche die Datenverarbeitung in Zukunft begünstigen

  • weitere Steigerung der Rechenleistung
  • Daten sind rasch verfügbar
  • schnelle Entwicklung der künstlichen Intelligenz