Content uploaded by Michael Freitag
Author content
All content in this area was uploaded by Michael Freitag on Aug 05, 2016
Content may be subject to copyright.
Dieses Dokument ist lizenziert für WISO-NET, uINTD336.
Alle Rechte vorbehalten. © Industrie 4.0 Management. Download vom 07.10.2015 15:28 von www.wiso-net.de.
Industrie 4.0
22
Industrie 4.0 Management 31 (2015) 5
Mit der Vision Industrie 4.0 werden verschiedens-
te Aspekte einer datengestützten Produktion
und Logistik verknüpft, die im Wesentlichen auf
eine hohe Vernetzung und intelligente Auswer-
tung der Daten zurückzuführen sind [1]. Dabei
besteht die Forderung nach einer individualisier-
ten Produktion mit Losgröße 1, die sowohl hoch
flexibel als auch ökonomisch und ökologisch zu
bislang unerreichten Konditionen agieren soll.
Es besteht die Hoffnung, dass durch effektive
Datenverarbeitung und -analyse neue Optimie-
rungspotenziale erschlossen werden, die sich
mittels neuartiger und teilweise dezentraler
Steuerungsmechanismen realisieren lassen. In
einer Studie der International Data Corporation
(IDC) zu diesem Thema wird als aktueller Treiber
dieser Entwicklung die vorausschauende In-
standhaltung genannt, die eine verbesserte Pro-
duktionsplanung, längere Laufzeiten und höhere
Verfügbarkeit der Maschinen gewährleistet [2].
Ausgehend von einem erweiterten Sensoreinsatz
und der Analyse der Sensordaten repräsentiert
die vorausschauende Instandhaltung somit al-
les, was unter einer datengestützten Produktion
und Logistik verstanden wird. Dieser Vision steht
jedoch noch eine ganze Reihe an Herausforde-
rungen entgegen. Neben mangelnden IT-Stan-
dards, welche die Kommunikation der vernetz-
ten Produktion behindern, zeigt die IDC-Studie,
dass die Sorge vor Diebstahl geistigen Eigentums
sowie die Befürchtung unerlaubter Zugriffe auf
Produktionsanlagen über das Internet am größ-
ten sind [2]. Zudem existieren insbesondere beim
Zusammenwirken (teil-) autonomer Systeme
rechtliche Unsicherheiten, die sich auf Versiche-
rungsleistungen und die Finanzierung neuer
Technologien auswirken. Ein weiteres Problem
ist die mangelnde Technologiereife einiger ver-
netzter Systeme sowie die bislang nur ungenau
definierte Rolle des Werkers als Bestandteil von
und in Interaktion mit (teil-) autonomen Produk-
tions- und Logistiksystemen. Des Weiteren sind
interdisziplinäre Forschungs- und Lehranstren-
gungen zu unternehmen, um den bestehenden
Mangel an Datenanalytikern mit Expertise im Be-
reich von Produktion und Logistik auszugleichen.
Data Science als interdisziplinäre Wis-
senschaft
Die Analyse von großen Datenmengen hat in
den letzten zehn Jahren unter dem Begriff Data
Science eine zunehmende Bedeutung erfahren.
Obwohl der Begriff schon vor 40 Jahren als Teil-
Potenziale von Data Science in
Produktion und Logistik
Teil 1 – Eine Einführung in aktuelle Ansätze der Data Science
Michael Freitag, Mirko Kück, Abderrahim Ait Alla und Michael Lütjen, BIBA – Bremer Institut für
Produktion und Logistik an der Universität Bremen
Prof. Dr.-Ing. Michael Freitag leitet das
Fachgebiet Planung und Steuerung
produktionstechnischer und logisti-
scher Systeme (PSPS) im Fachbereich
Produktionstechnik der Universität
Bremen und ist Direktor des BIBA –
Bremer Institut für Produktion und
Logistik GmbH.
Dipl.-Math. Mirko Kück arbeitet als
wissenschaftlicher Mitarbeiter im
BIBA – Bremer Institut für Produktion
und Logistik GmbH an der Universität
Bremen.
Dipl.-Inf. Abderrahim Ait Alla arbeitet
als wissenschaftlicher Mitarbeiter im
BIBA – Bremer Institut für Produktion
und Logistik GmbH an der Universität
Bremen.
Dr.-Ing. Michael Lütjen leitet die Abtei-
lung Data Analytics und Prozessopti-
mierung am BIBA – Bremer Institut für
Produktion und Logistik GmbH an der
Universität Bremen.
kue@biba.uni-bremen.de
www.ips.biba.uni-bremen.de
In den letzten zehn Jahren hat es im IT-Bereich rasante Entwicklungen gegeben, um
immer größere Datenmengen speichern und performant verarbeiten zu können.
Dadurch wurde eine wesentliche Voraussetzung für die Umsetzung der vernetzten
Produktion im Sinne von Industrie 4.0 geschaffen. Die vernetzte Produktion ver-
folgt die Idee, dass mittels des Internet der Dinge eine Kommunikation zwischen
Maschinen, Transportmitteln und Werkstücken stattfindet, um gemeinsam mit
dem Menschen bislang unerschlossene Effizienzpotenziale im Hinblick auf Mate-
rialbereitstellungs-, Instandhaltungs- und Fertigungskonzepte auszuschöpfen. Zur
Umsetzung dieser Konzepte bedarf es in Analogie zur Business Intelligence eines
neuartigen Verständnisses der Datenverarbeitung für den Produktionsbereich.
Mit Verweis auf das übergeordnete Rahmenkonzept der Data Science ist hierzu
ein integrierter Ansatz bestehend aus mathematischer Modellierung, performan-
ter Softwareimplementierung und spezifischem Anwendungswissen erforderlich.
In diesem ersten Beitrag werden die Grundlagen der Data Science vorgestellt und
Perspektiven für eine datengestützte Produktion und Logistik als Entwicklungs-
richtung von Industrie 4.0 diskutiert. Darauf aufbauend werden in einem späteren
zweiten Beitrag Prozessschritte zur strukturierten Datenanalyse erläutert und an-
hand verschiedener Anwendungsbeispiele veranschaulicht.
Potentials of Data Science in Production
and Logistics
Part 1 – An Introduction into Current Ap-
proaches of Data Science
The implementation of industry 4.0 concepts
requires a new understanding of data pro-
cessing and analysis. Data Science integrates
approaches of mathematical modelling and
performant implementation to analyse data of
specific application areas. Within this first arti-
cle, the basics of Data Science are presented
and perspectives for a data-driven production
and logistics are discussed. Within a second ar-
ticle in a following edition, the process steps for
structured data analysis will be explained and
illustrated by means of application examples.
Keywords:
data analysis, data science, big data,
industry 4.0
Dieses Dokument ist lizenziert für WISO-NET, uINTD336.
Alle Rechte vorbehalten. © Industrie 4.0 Management. Download vom 07.10.2015 15:28 von www.wiso-net.de.
Industrie 4.0
23
disziplin der Informatik geprägt
wurde, erschließt sich seine ei-
gentliche Bedeutung erst heute
im Zusammenspiel mit modernen,
hoch vernetzten IT-Infrastruktu-
ren, die einen tiefer gehenden
Einblick in bestehende Produk-
tions- und Logistiksysteme geben
können. Dabei wird Data Science
als Schnittmenge aus Informatik,
Mathematik und der spezifischen
Anwendungsdomäne verstanden
(Bild 1).
Durch den expliziten Anwen-
dungsbezug ergeben sich neue
Potenziale für die Datenanalyse,
um den Erkenntnisgrad in den je-
weiligen Domänen über die beste-
henden informationstechnischen
und mathematischen Ansätze hin-
aus zu steigern. In Erweiterung die-
ses Gedankens werden in der Pro-
duktions- und Logistikforschung
aktuell verschiedenste Ansätze
verfolgt, um aus der zunehmenden
Sensorik und den wachsenden Möglichkeiten zur
Datengewinnung die Transparenz der Prozesse
zu erhöhen und Entscheidungen zu deren Pla-
nung und Steuerung abzuleiten. Ursprünglich
wurden innerhalb der Mathematik Theorien ent-
wickelt, um Daten zu beschreiben, zu analysieren
und vorherzusagen. Durch eine Verbindung der
Bereiche Mathematik und Informatik entstanden
rechnergestützte Modellierungs- und Analyse-
methoden, die unter anderem den Gebieten
Data Mining, Machine Learning und Predicti-
ve Analytics zuzuordnen sind. Die Anwendung
dieser Methoden zur Analyse von Daten eines
spezifischen Anwendungsgebiets, wie den In-
genieurs-, Natur-, Wirtschafts- oder Gesundheits-
wissenschaften, lässt sich unter dem Begriff Data
Science zusammenfassen. Als Verbindung aller
drei Bereiche beschreibt Data Science die rech-
nergestützte Modellierung und Analyse von Da-
ten eines spezifischen Anwendungsgebiets.
Ansätze zur Datenanalyse
In den Bereichen Mathematik und Informatik so-
wie deren Verbindung existiert eine Vielzahl an
Theorien und Verfahren zur Datenanalyse wie
Data Mining, Statistik, explorative Datenanalyse,
Machine Learning, Predictive Analytics und Big
Data. Wenngleich diese Begriffe durch verschie-
dene Ansätze und Ziele gekennzeichnet sind,
bestehen dennoch einige Gemeinsamkeiten und
es herrschen fließende Übergänge zwischen den
Methoden. So lässt sich eine lineare Regression
sowohl im Bereich der Statistik als auch im Data
Mining sowie als maschinelles Lernverfahren
oder zur Prognose im Rahmen von Predictive
Analytics verwenden.
Die genannten Ansätze zur Datenanalyse bein-
halten aber auch viele Unterschiede. Während
die Begriffe Data Mining [4, 5], explorative Da-
tenanalyse [6, 7] und Predictive Analytics [8]
übergeordnete Konzepte zur Erreichung be-
stimmter Ziele darstellen, ohne die dazu verwen-
deten Methoden klar zu spezifizieren, werden
maschinelle Lernverfahren konkreter als eine
Klasse von Verfahren definiert, die hinsichtlich
Modell (Algorithmus), Verlustfunktion und Pro-
zedur zur Parameteroptimierung unterschieden
werden [9]. Wichtige Eigenschaften des Lernens
sind hierbei Erinnerung, Anpassung und Gene-
ralisierung [10]. In diesem Zusammenhang ist
zu erwähnen, dass ein Data Mining-Prozess bei-
spielsweise in der sukzessiven Anwendung ver-
schiedener maschineller Lernverfahren zur Erfül-
lung unterschiedlicher Aufgaben bestehen kann.
Unter dem Begriff Big Data Analytics werden die
Methoden der verschiedenen Ansätze zur Daten-
analyse zusammengefasst, wenn sie auf Daten
angewandt werden, die den sogenannten „vier
V’s“ als Eigenschaften der Daten entsprechen:
großer Umfang (Volume), Schnelllebigkeit (Velo-
city), große Vielfalt (Variety) und variable Verläss-
lichkeit (Veracity) [11]. Des Weiteren lassen sich
die unterschiedlichen Ansätze zur Datenanalyse
nach der Herangehensweise an Problemstellun-
gen und nach dem Ziel der Anwendung unter-
scheiden (Bild 2).
Datenanalyst Mathematiker
Mathematiker mit
Anwendungsbezug
Experte aus
Anwendungsgebiet
Informatiker mit
Anwendungsbezug
Informatiker
Expertise: Entwicklung und Verwendung von
computergestützten Tools zur Datenanalyse
Expertise: Modellbildung und
Datenanalyse
Expertise: Software-Entwicklung und
Bereitstellung Rechnerarchitektur
Expertise: Modellbildung und
Datenanalyse mit Spezialisierung auf ein
bestimmtes Anwendungsgebiet
Expertise: Fachwissen über die Prozesse und
Zusammenhänge des Anwendungsgebiets
Expertise: Software-Entwicklung
mit Spezialisierung auf ein
bestimmtes Anwendungsgebiet
Data
Science
Mathematik
•Statistik
•Wahrscheinlichkeitstheorie
•Dynamische Systeme
•Differentialgleichungen
.
.
.
Anwendungsgebiete
•Ingenieurswissenschaften
•Naturwissenschaften
•Wirtschaftswissenschaften
•Gesundheitswissenschaften
.
.
.
Informatik
•Rechnerarchitektur
•Cloud Computing
•Visualisierung
•Datenbanken
.
.
.
Data Mining
Machine Learning
Predictive Analytics
…
Klassische Software- und
Hardwareentwicklung
für Anwendung
Klassische
Anwendungs-
forschung
F(X) = Y
Bild 1: Komponenten von
Data Science (angelehnt
an [3]).
Dieses Dokument ist lizenziert für WISO-NET, uINTD336.
Alle Rechte vorbehalten. © Industrie 4.0 Management. Download vom 07.10.2015 15:28 von www.wiso-net.de.
Industrie 4.0
24
Industrie 4.0 Management 31 (2015) 5
Bezüglich der Herangehensweise lassen sich
modellgetriebene und datengetriebene Ansätze
unterscheiden [12]. In der Statistik werden klassi-
scherweise modellgetriebene Ansätze verfolgt,
während Ansätze des Data Mining und des ma-
schinellen Lernens datengetrieben sind. Statis-
tische Methoden beginnen mit der Annahme
eines stochastischen Modells, wie z. B. einer mul-
tivariaten Normalverteilung, zur Beschreibung
des Prozesses, aus dem die vorliegenden Daten
generiert wurden. Die Parameter des angenom-
menen Modells werden auf Grundlage der vor-
liegenden Daten geschätzt. In den Bereichen des
Data Mining und des maschinellen Lernens wird
der datengenerierende Prozess als unbekannt
betrachtet und es wird keine Annahme eines
expliziten stochastischen Modells für diesen Pro-
zess getroffen. Stattdessen werden Algorithmen
verwendet, die basierend auf den Input-Daten
ein spezifisches Ziel verfolgen, z. B. die Entde-
ckung spezieller Datenmuster beim Data Mining
oder die Erlangung von Wissen basierend auf der
Beziehung zwischen Input- und Output-Daten
beim maschinellen Lernen. Für die Analyse gro-
ßer Datenmengen sind in der Regel datengetrie-
bene Ansätze geeigneter, da die Annahmen mo-
dellgetriebener Ansätze in diesen Fällen zumeist
nicht erfüllt sind.
Neben der Unterscheidung zwischen modell-
getriebenen und datengetriebenen Ansätzen
lassen sich die beschriebenen Ansätze auch an-
hand des Ziels ihrer Anwendung klassifizieren.
So lassen sich Datenanalysen zur Beschreibung
(Deskription), Erforschung (Exploration), Erklä-
rung (Diagnose) oder Prognose vorliegender
Daten verwenden. Für eine Deskription wird auf
Basis vorliegender Daten auf historische System-
zustände geschlossen und es werden Aussagen
darüber getroffen, was passiert ist. Eine Deskrip-
tion ist in der Regel eng verbunden mit einer Ex-
ploration der Daten. Aus diesem Grund werden
diese beiden Analyseziele häufig zusammen
betrachtet [6]. Einen Schritt weiter gehen erklä-
rende (diagnostische) Modelle, die die Frage be-
antworten, warum etwas passiert ist. Ein weiteres
Analyseziel ist die Prognose ungesehener Daten
zur Vorhersage, was passieren wird. Sowohl die
klassische Statistik als auch der Bereich des Data
Mining befassen sich mit all diesen Analysezie-
len, wobei jeweils verschiedene Ansätze verfolgt
werden. Zudem lassen sich für jedes dieser Ana-
lyseziele spezifische Methoden des maschinellen
Lernens verwenden. Demgegenüber umfasst die
explorative Datenanalyse die Erforschung der
Daten, um diese zu verstehen. Dabei werden un-
ter anderem auch beschreibende Methoden wie
z. B. Korrelationsanalysen und Entscheidungs-
baumverfahren einbezogen. Eine erklärende
Modellierung lässt sich sowohl mit Methoden
der induktiven Statistik als auch mit Methoden
des Data Mining und des maschinellen Lernens
durchführen.
Predictive Analytics
Predictive Analytics bezeichnet sowohl modell-
getriebene als auch datengetriebene Ansätze
zur Prognose ungesehener Daten. Die intuitive
Annahme, dass Modelle, die vorhandene Daten
detailliert erklären, auch zukünftige Daten des
gleichen Ursprungs geeignet prognostizieren
können, ist häufig falsch. Der erwartete Progno-
sefehler (auch Test- oder Generalisierungsfehler)
eines Modells bei der Prognose ungesehener
Daten (Testdaten) lässt sich in die drei Kompo-
nenten des irreduziblen Fehlers, der quadrier-
ten Verzerrung (Squared Bias) und der Varianz
zerlegen [13]. Der Bias beschreibt den durch fal-
sche Modellannahmen bedingten Fehler. Dieser
entsteht beispielsweise bei Annäherung eines
nichtlinearen Prozesses durch ein lineares Mo-
dell. Die Varianz gibt die Sensitivität des Modells
gegenüber kleinen Schwankungen innerhalb
der Trainingsdaten an. Der irreduzible Fehler
lässt sich nicht beeinflussen, denn er ist durch
die Varianz des Rauschens innerhalb der Daten
bestimmt. Beeinflussbar sind die Fehlerkompo-
nenten des Bias und der Varianz, zwischen de-
nen allerdings ein Trade-off besteht: In der Re-
gel bedingt ein geringer Bias eine hohe Varianz
des Modells und umgekehrt. Dies wird in Bild 3
veranschaulicht.
Eine gute Anpassung an Trainingsdaten lässt
sich beispielsweise mit einem hochdimensio-
nalen Polynom erreichen. Dies führt zu einem
geringen Bias, aber zu einer hohen Varianz. Das
Modell ist in der Lage, die Trainingsdaten abzu-
bilden und somit zu erklären, lässt sich aber nur
schlecht zur Prognose ungesehener Testdaten
verwenden. Diese als Überanpassung (Overfit-
ting) bezeichnete Modelleigenschaft liegt darin
begründet, dass das hochkomplexe Modell nicht
nur die relevanten Zusammenhänge der Daten
Modellgetrieben
Datengetrieben
Deskription Exploration Diagnose Prognose
Klassische Statistik
Machine
Learning
Predictive
Analytics
Explorative
Datenanalyse
Data
Mining
Bild 2: Qualitative Unter-
scheidung verschiedener
Ansätze zur Datenanalyse.
Dieses Dokument ist lizenziert für WISO-NET, uINTD336.
Alle Rechte vorbehalten. © Industrie 4.0 Management. Download vom 07.10.2015 15:28 von www.wiso-net.de.
Industrie 4.0
25
in die Modellbildung einbezieht, sondern auch
irrelevantes Rauschen innerhalb der Daten. Auf
der anderen Seite führt ein simpleres Modell wie
z. B. eine lineare Regression in der Regel zu gerin-
ger Varianz, allerdings zu hohem Bias. In diesem
Fall findet eine Unteranpassung (Underfitting)
an die Daten statt. Sowohl Over- als auch Un-
derfitting eines Modells führen zu einem hohen
Generalisierungsfehler. Daher muss ein geeig-
neter Trade-off zwischen Bias und Varianz bei
der Modellbildung gefunden werden, wenn das
Ziel eine Prognose ungesehener Daten ist. Aller-
dings sollten Erklärung und Prognose nicht als
zwei Extreme auf einer Achse betrachtet werden,
sondern eher als zwei Dimensionen, denn in der
Regel lassen sich erklärende Modelle auch zur
Prognose und prädiktive Modelle auch zur Erklä-
rung verwenden [7]. Die besten Ergebnisse wer-
den jedoch erreicht, wenn ein Modell für einen
spezifischen Zweck erstellt wird.
Präskriptive Analytik
Zusätzlich zur Beschreibung, Erforschung, Erklä-
rung und Prognose von Daten besteht ein wei-
teres Analyseziel in der sogenannten präskrip-
tiven Analytik. Dieser bisher wenig betrachtete
Ansatz befasst sich mit der Fragestellung, was
zu tun ist, damit bestimmte Ereignisse eintreten
werden. Eine Evolution der Zielstellungen von
deskriptiver über diagnostische und prädikti-
ve Analytik bis zur präskriptiven Analytik ist in
Bild 4 dargestellt. Die präskriptive Analytik lie-
fert neben der Prognose auch Handlungsanlei-
tungen, um Vorhersagen eintreffen bzw. ändern
zu lassen. Hierzu werden verschiedene Simula-
tionswerkzeuge und Verfahren der mathemati-
schen Optimierung verwendet, um in Abhän-
gigkeit von der Prognose gezielt Vorschläge für
die besten Entscheidungsoptionen zu geben.
Dies schließt im Bereich der Produktion und Lo-
gistik sowohl Materialflusssimulationen als auch
klassische Expertensysteme ein, die aber in ei-
nem viel größeren Maße als bisher auf Betriebs-
daten aufbauen.
Insbesondere neu entwickelte Informations-
und Kommunikationstechnologien im Rah-
men von Industrie 4.0 bilden die Grundlage
für eine präskriptive Analytik, z. B. mittels Data
Driven Dynamic Simulation, welche in einem
viel stärkeren Maße auf Betriebs- und Sensorda-
ten zurückgreift als bislang. Durch den Einsatz
von Sensortechnik innerhalb Cyber-Physischer
Systeme werden Daten aus verschiedenen
vernetzten Systemen dezentral erfasst und
auf intelligente Weise verarbeitet, um Produk-
tions- und Logistiknetzwerke beispielsweise
robuster gegenüber Störungen zu machen. Die
Entwicklung effizienter und performanter Infra-
strukturen zur Datenerfassung und -analyse ist
daher entscheidend für Industrie 4.0. Im Sinne
einer verbesserten Mensch-Technik-Interaktion
dient die präskriptive Analytik dazu, Menschen
bei komplexen Tätigkeiten zu unterstützen und
ihnen die Entscheidungsalternativen in auf-
bereiteter Form aufzuzeigen [15]. Hierzu sind
bestehende Strukturen aufzubrechen, da ins-
besondere im Produktions- und Logistikbereich
das über Jahre gewonnene Erfahrungswissen
auf neues Methodenwissen trifft, was neben
einigem Konflikt- auch großes Optimierungspo-
tenzial beinhaltet. Mit der präskriptiven Analytik
ergeben sich dabei neue Möglichkeiten und
Perspektiven, um die Ziele von Industrie 4.0 zu
erreichen.
Anwendungsgebiete und Einsatzbe-
reiche
Heutzutage verfügen alle Produktions- und
Logistiksysteme über verschiedene Daten, wel-
che die einzelnen produktionstechnischen und
logistischen Prozessschritte informationstech-
nisch darstellen. Durch den Einsatz geeigneter
Methoden zur Datenanalyse kann ein klares
Verständnis der Dynamik und des Systemver-
ungesehene
Testdaten
Trainings-
daten
Prognosefehler
Modellkomplexität
gering groß
hoher Bias
geringe Varianz
geringer Bias
hohe Varianz
Overfitting
Underfitting
Trade-off
Bild 3: Veranschaulichung
von Bias, Varianz, Overfit-
ting, Underfitting (ange-
lehnt an [13]).
WERT
SCHWIERIGKEIT
Deskriptive
Analytik
Diagnostische
Analytik
Prädiktive
Analytik
Präskriptive
Analytik
Was ist
passiert?
Warum ist es
passiert?
Was wird
geschehen?
Wie können wir es
geschehen lassen?
Bild 4: Die evolutionstech-
nischen Stufen der Analy-
tik (angelehnt an [14]).
Dieses Dokument ist lizenziert für WISO-NET, uINTD336.
Alle Rechte vorbehalten. © Industrie 4.0 Management. Download vom 07.10.2015 15:28 von www.wiso-net.de.
Industrie 4.0
26
Industrie 4.0 Management 31 (2015) 5
haltens erlangt werden, was in einem nächsten
Schritt zur Optimierung der betreffenden Syste-
me verwendet werden kann. Bild 5 illustriert den
Einsatz verschiedener Datenanalysemethoden
für spezifische Aufgaben und Anwendungsbe-
reiche, die im Sinne eines übergeordneten Be-
griffsverständnisses sowohl die reine Business
Intelligence als auch entsprechende Analogien
für den Produktionsbereich betreffen.
Typische Aufgaben der Datenanalyse bestehen
in der Ausreißererkennung, der Assoziation,
dem Clustering (Segmentierung), der Klassifi-
kation, der Prognose und der Regression. An-
wendungsbereiche für Datenanalysemethoden
finden sich unter anderem im Marketing und
im Controlling, wobei sich derzeit zunehmend
der Einsatz in Produktion und Logistik etab-
liert. Für Produktionssysteme ergeben sich
beispielsweise Einsatzmöglichkeiten bei der
Prozessüberwachung unter Verwendung von
Sensor- und Qualitätsdaten. Mittels Abhängig-
keitsanalysen können Produktionsparameter
für neue Produkte aus bereits bestehenden
Produkten hergeleitet werden. Der Einsatz von
Assoziationsanalysen erlaubt es, die Auswirkun-
gen von Maschinenausfällen auf Produktions-
prozesse und deren Einfluss auf Lieferverzüge zu
erkennen. Weiterhin können in der Logistik z. B.
bei verderblichen Waren ganze Distributions-
netze auf Basis aktu-
eller Zustandsdaten
optimiert werden.
Neben diesen exem-
plarisch genannten
Anwendungsbe-
reichen entstehen
ständig weitere. Da-
her ist ein Verständ-
nis für geeignete
Methoden zur Da-
tenanalyse von gro-
ßer und stetig wach-
sender Bedeutung.
Zusammenfas-
sung und
Ausblick
In den Bereichen
Produktion und Lo-
gistik bekommt die
Datenanalyse einen
immer höheren
Stellenwert, um
damit weitere Opti-
mierungspotenziale
zu identifizieren.
Unter dem Begriff
der Data Science
entsteht eine Fachdisziplin, die ein Zusam-
menspiel zwischen Mathematik, Informatik
und Anwendungsdomäne erfordert. Gerade
im Hinblick auf Produktion und Logistik gilt es,
domänenspezifisches Anwendungs- und Exper-
tenwissen mit den bestehenden Ansätzen der
Datenanalyse zu verbinden. In diesem Zusam-
menhang erscheint es sinnvoll, gezielt in inter-
disziplinären Forschungsvorhaben die metho-
dischen Grundlagen für eine datengetriebene
Produktion und Logistik zu schaffen, wobei die
präskriptive Analytik als zunächst letzte Evolu-
tionsstufe der Analytik mit den existierenden
Methoden der Simulation und automatischen
Entscheidungsfindung zu konsolidieren ist. Der
vorliegende Beitrag befasste sich mit Potenzia-
len von Data Science in Produktion und Logistik.
Dabei wurde Data Science als Schnittmenge aus
Mathematik, Informatik und dem spezifischen
Anwendungsfeld erläutert. Es wurden Gemein-
samkeiten und Unterschiede verschiedener
Ansätze zur Datenanalyse diskutiert und An-
wendungsfelder beschrieben. Aufbauend auf
diesem ersten Teil des Beitrags werden in einem
zweiten Teil Prozessschritte zur strukturierten
Datenanalyse erläutert und anhand verschiede-
ner Anwendungsbeispiele veranschaulicht.
Schlüsselwörter:
Datenanalyse, Data Science, Big Data, Industrie 4.0
Literatur
[1] Bauernhansl, T.; ten Hompel,
M.; Vogel-Heuser, B.: Industrie
4.0 in Produktion, Automati-
sierung und Logistik: Anwen-
dung, Technologien, Migrati-
on. Wiesbaden 2014.
[2] Schmalen, K.: IDC-Studie
„Industrie 4.0 in Deutsch-
land – Startschuss für die
ITK-basierte vierte indus-
trielle Revolution“. URL:
http://idc.de/de/ueber-idc/
press-center/59106-idc-stu-
die-industrie-4-0-durch-
dringt-verarbeitendes-ge-
werbe-in-deutschland-inves-
titionen-fur-2015-geplant,
Abrufdatum 27.05.2015.
[3] Schutt, R.; O’Neil, C.: Doing
data science: Straight talk
from the frontline. Sebastopol
2013.
[4] Witten, I. H.; Frank, E.; Hall,
M. A.: Data Mining: Practical
Machine Learning Tools and
Techniques. 2011.
[5] Fayyad, U.; Piatetsky-Shapiro,
G.; Smyth, P.: From Data Min-
ing to Knowledge Discovery
in Databases. In: AI Magazine
17 (1996) 3, S. 37-54.
[6] Fahrmeir, L.; Künstler, R.; Pi-
geot, I.; Tutz, G.: Statistik: Der
Weg zur Datenanalyse. Berlin
2007.
[7] Shmueli, G.: To Explain or to
Predict? In: Statistical Science
25 (2010) 3, S. 289-310.
[8] Abbott, D.: Applied Predictive
Analytics: Principles and Tech-
niques for the Professional
Data Analyst. Indianapolis
2014.
[9] Alpaydın, E.: Introduction
to Machine Learning. Cam-
bridge MA 2014.
[10] Marsland, S.: Machine Learn-
ing: An Algorithmic Perspec-
tive. Boca Raton 2014.
[11] Dorschel, J.: Praxishandbuch
Big Data: Wirtschaft Recht –
Technik. Wiesbaden 2015.
[12] Breiman, L.: Statistical Mod-
eling: The Two Cultures. In:
Statistical Science 16 (2001) 3,
199-231.
[13] Hastie, T.; Tibshirani, R.; Fried-
man, J.: The Elements of Sta-
tistical Learning. New York
2009.
[14] Gartner: Predictive Analyt-
ics. URL: http://www.gartner.
com/it-glossary/predic-
tive-analytics, Abrufdatum
27.05.2015.
[15] Veigt, M.; Lappe, D.; Hribernik,
K. A.; Scholz-Reiter, B.: Ent-
wicklung eines Cyber-Phy-
sischen Logistiksystems. In:
Industrie Management 29
(2013) 1, S. 15-18.
Aufgabe Beschreibung Methodenbeispiele Anwendungsbeispiele
Ausreißer-
erkennung
Entdeckung auffälliger
Objekte oder Werte
Ausreißertests
Lineare Regression
Filterung von
Sensordaten
Identifikation von
Kreditkartenbetrügen
Assoziation
Untersuchung der
Zusammenhänge und
Abhängigkeiten durch Wenn-
dann-Regeln
Assoziationsregeln
Bayessche Netze
Warenkorbanalysen
Analyse von
Kaufverhalten und
Kundenbedürfnissen
Clustering /
Segmentierung
Bildung von a priori
unbekannten Klassen
aufgrund von Ähnlichkeiten
Clusteranalyse
Neuronale Netze
Selbstorganisierende
Karten
Bildung
verschiedener
Liefergebiete
Bildung von
Produktklassen
ähnlicher
Eigenschaften
Klassifikation
Zuordnung von Objekten
durch Vergleiche von
Objekteigenschaften mit den
Eigenschaften vorgegebener
Klassen
Diskriminanzanalyse
Entscheidungsbäume
Neuronale Netze
Prozess- und
Qualitätsanalyse
Zuordnung von
neuen Produkten zu
vorgegebenen
Produktklassen
Prognose
Berechnung zukünftiger
Werte auf Basis historischer
Daten
ARIMA
Exponentielle
Glättung
Neuronale Netze
Prognoseverfahren
der Nichtlinearen
Dynamik
Bedarfsprognosen
für die
Produktionsplanung
Prognosen der
Restlebensdauer von
Produktionsanlagen
Regression
Modellierung der Beziehung
zwischen verschiedenen
Variablen
Lineare Regression
Neuronale Netze
Support Vector
Regression
Bestimmung des
Zusammenhangs
zwischen Absatz und
Marketing
Bestimmung des
Zusammenhangs
zwischen
Maschineneigen-
schaften und
Lebensdauern
Bild 5: Beispiele für Aufga-
ben der Datenanalyse.