Auf den ersten Blick haben Datenintegration und Machine Learning wenig gemeinsam. Jedoch kann saubere und gute Datenintegration einen erheblichen Einfluss auf die Performance von Machine Learning Modellen haben. Durch effektive Datenintegration erhöhe ich die Qualität meiner Daten maßgeblich, was sich wiederum in der Performance der Modelle im Machine Learning niederschlägt. Aber wie genau sieht nun der Zusammenhang von Datenintegration und Datenqualität aus? Und wie hängen Datenqualität und Modell-Performance zusammen? Daher entflechten wir in diesem Artikel die Kausalkette „Datenintegration-Datenqualität-Modellperformance“.
Wer schon einmal den Machine Learning Prozess (CRISP-DM) durchexerziert hat, der kennt aus eigener Erfahrung wie sich das Pareto-Prinzip dabei verhält. Man verbringt 80% seiner Zeit mit Datenaufbereitung (Preparation, Cleansing, Standardization etc.) und dem Bauen von ordentlichen Data Pipelines und nur 20% wirklich mit dem eigentlichen Thema – dem Modeling. Dabei lernt man in der meisten Zeit, wie man gute Modelle baut, welcher Algorithmus wie funktioniert und wann Anwendung findet. Und dann wird man in der Praxis ins kalte Wasser geworfen und verbringt die meiste Zeit damit, die Daten zusammenzusuchen und aufzubereiten. Da ist man dann fast schon froh, wenn man die Daten als CSV-Datei auf den Tisch geworfen bekommt – metaphorisch. Und jeder der Machine Learning produktiv betreiben möchte, schaudert beim Gedanken an CSV-Dateien. Der direkte Zugang zur Datenbank bleibt der Königsweg, da bei jeder Query die aktuellsten Daten (aus der Datenbank immerhin) abgerufen werden können. Da mitunter kommen jedoch schnell einige Zugänge und Datenbanktypen zusammen – z.B. MySQL, PostgreSQL, MongoDB, MSQL oder Apache Cassandra. Und wir sind immer noch nur bei Data Gathering. Da ist es deutlich praktischer, wenn die relevanten Daten zentral verfügbar sind und das ohne custom code. Denn jeder Abruf der Daten aus jeder Quelle muss einzeln programmiert werden.
Datenintegration und Datenqualität
Saubere und effektive Datenintegration kann auf vielerlei Weise deine Datenqualität erhöhen. Eine ausführliche Darstellung, wie Datenintegration auf deine Datenqualität Einfluss hat, findest du in dem folgenden Artikel.
Wie mache ich meine Daten smart?
Durch Integration deiner Daten mit einer zentralen Plattform erhöhst du deine Datenqualität unter anderem so
- Completeness: Daten liegen vollständig vor und sind nicht mehr über Systeme hinweg verteilt. Dadurch sind sie an einer zentralen Stelle zugänglich.
- Consistency: Die Daten sind zusammengeführt und dadurch konsistent. Das muss nicht mehr in der Datenaufbereitung im Machine Learning berücksichtigt werden.
- Accuracy: Ungenauigkeiten der Daten werden aufgelöst durch das Zusammenführen der Daten. Auch dies muss nicht mehr in der Datenaufbereitung im Machine Learning beachtet werden.
Daten validieren und anreichern
Sind deine Daten in einer zentralen Plattform zusammengeführt, kannst du diese auch über externe Datenanbieter validieren und anreichern lassen. Validierung bedeutet, dass die Dimensionen von Datenqualität Validity und Currency positiv beeinflusst werden. So können Adressdaten validiert werden. Aktuelle Adressdaten, ob B2C oder B2B, können sehr relevant werden, wenn die Daten mit mikrogeographischen Kennzahlen wie Kaufkraft (B2C) oder Standortqualität (B2B) angereichert werden. Kundendaten können auch vielfältig angereichert werden:
- B2B: Financial Data, Payment Data, General Company Information, Risk Data
- B2C: Mikrogeografische Daten wie Kaufkraft, Interessen, Verhalten (bspw. auf PLZ- oder sogar Adressebene)
Dadurch werden die Daten reichhaltiger in Quantität und Qualität. Die Dimension Completeness wird positiv beeinflusst.
Über den Data Marketplace kannst du deine Daten validieren und anreichern. Hier listen wir alle verfügbaren externen Datenanbieter.
Datenqualität und Modell-Performance
Nach der Datenaufbereitung (Data Preparation) folgt im Machine Learning Prozess das Model Building. Jetzt sind die Daten derart aufbereitet, dass sie das passende Format für das Training des Modells haben. Im Schritt des Modeling werden verschiedenste Modelle trainiert. Unterschiedliche Modelle können aus unterschiedlichen Algorithmen oder aus unterschiedlicher Spezifizierung der Parameter innerhalb eines Algorithmus resultieren. Hier finden auch Verfahren wie Cross-Validation statt. Anschließend werden die vielen trainierten Modelle evaluiert und gegeneinander verglichen (Model Evaluation). In der Modellevaluierung wird in der Regel das Modell ausgewählt, welches am besten vorhersagt. Generell gilt, man möchte möglichst treffende Vorhersagen treffen. Die Zielvariable der Vorhersage kann entweder ein Ereignis sein (Klassifizierung) oder ein numerischer nicht-kategorialer Wert (z.B. Umsatz).
Was hat Einfluss auf die Vorhersage der Zielvariable?
Man verwendet sogenannte unabhängige Variablen (im Machine Learning nennt man sie Features) zur Vorhersage der Zielvariablen. Ein Beispiel: Ich möchte den Umsatz eines Kunden vorhersagen. Dafür kann ich Informationen nutzen wie z.B.
- Alter des Kunden
- Geschlecht
- Kundendauer
- Vorherige Käufe
- Marketing-Interaktionen (z.B. Mailing-Openings)
- Vertriebs-Interaktionen (z.B. Anzahl Gespräche mit Vertriebler)
- Service-Interaktionen (z.B. Anzahl Beschwerden)
- Interessen (z.B. angegeben im Newsletter)
- Kaufkraft (externe mikrogeographische Daten)
Wie lasse ich mein Modell bessere Vorhersagen treffen?
Ein Modell ist per Definition eine vereinfachte Darstellung der Realität. Wir versuchen mit einem uns verfügbaren Teil aller möglichen Informationen (vgl. Liste oben), eine Zielvariable vorherzusagen. Dabei wird klar, dass man niemals alle Einflussfaktoren miteinbeziehen kann. Möchte ich eine Kaufentscheidung vorhersagen können tausende Faktoren einen Einfluss haben, welche ich nicht messen kann wie z.B.
- Emotionen
- Impulse
- Einstellungen zur Marke
- Wertvorstellungen des Konsumenten
- Charaktereigenschaften
- Grad der Informationen, die der Konsument zur Verfügung hat
Volumen
Generell gilt jedoch: Je mehr Informationen ich zur Verfügung habe, desto besser kann ich mit einem Modell eine Zielvariable vorhersagen. Sprich, das Volumen hat in der Regel (nicht immer – vgl. Variance-Bias-Tradeoff!) einen positiven Einfluss. Je mehr Informationen mir für die Vorhersage zur Verfügung stehen, desto exakter kann ich mit meinem Modell die Realität abbilden.
Informationsgehalt
Neben dem Volumen ist auch der Informationsgehalt der Daten entscheidend. Dieser variiert für verschiedene Zielvariablen. So hat das Alter einen maßgeblichen Einfluss darauf, ob Personen bereit sind, eine private Rentenversicherung abschließen. Im Durchschnitt wird die Bereitschaft mit zunehmenden Alter abnehmen, da auch die Sinnhaftigkeit und Wirtschaftlichkeit damit sinkt. Um bei dem gleichen Beispiel zu bleiben: ein wesentlich schwieriger messbarer Faktor stellt die Risikobereitschaft dar. Risikoaverse Personen werden tendenziell eher eine Rentenversicherung (oder auch generell) Versicherung abschließen. Wie ließe sich das in der Praxis approximieren? Eventuell durch die Anzahl der bereits geschlossenen Versicherungen.
So sind unterschiedliche Faktoren verschieden wichtig für die Vorhersage von unterschiedlichen Zielvariablen. So spielt es vermutlich weniger eine Rolle für den Kauf eines Fernsehers, ob eine Person gerne Sport macht, hingegen für den Kauf eines Fahrrads aber möglicherweise durchaus. Das heißt der Informationsgehalt von Daten hängt stark davon ab, was ich vorhersagen möchte.
Bringen wir alles zusammen
Aus den Absätzen zuvor kristallisieren sich sich zwei Benefits heraus. Durch Datenintegration sind die Daten für die Data Scientist im Machine Learning einfacher verfügbar und das oftmals im passenden Format. Zweites ist die Qualität der Daten höher – erinnern wir uns an die Dimensionen der Datenqualität. Das hat Einfluss auf das Volumen und den Informationsgehalt der Daten, was wiederum die Modellperformance verbessern kann.
1. Benefit - Daten einfacher verfügbar und das im passenden Format
Wenn du deine Daten in einer zentralen Plattform konsolidiert hast, stehen dir dort weitreichende Transformationen und Validierungen zur Verfügung. Das gilt auch für das Validieren und Anreichern der Daten über externe Datenanbieter wie Dun & Bradstreet im B2B-Bereich. Wie bereits erwähnt – der Aufbau der Data Pipeline (data gathering, data preparation) im Machine Learning ist aufwändig. Sind die Daten zentral verfügbar, wird die Data Pipeline weniger komplex und wir reduzieren damit die aufwändigen 80% der Zeit im Machine Learning Prozess. Weiterhin sind die Daten standardisiert, entsprechend formatiert und bereits zusammengeführt. Die Datenaufbereitung wird einfacher. Das senkt erneut die benötigte Zeit für den Aufbau der Datenpipeline, was wiederum Kosten minimiert. Zusätzlich entsteht weniger custom code, was die Beherrschbarkeit der Applikation erhöht und ebenso die Kosten (weniger Wartung etc.) reduziert.
2. Benefit - Höhere Qualität der Daten
Durch effektive Datenintegration steigt die Datenqualität (Completeness, Consistency, Accuracy). Mit zusätzlichem Anreichern durch externe Datenservices noch mehr (Currency, Validity, Completeness). Sowohl das Volumen als auch der Informationsgehalt (durch mehr Volumen und exaktere Daten) werden positiv beeinflusst, womit sich die Modell-Performance steigern lässt. Im B2B-Bereich können zusätzliche Informationen über das Unternehmen entscheidend dafür sein, wie gut ein Modell die Chancen eines Abschlusses vorhersagt. Im B2C-Bereich spielt die Kaufkraft oftmals eine große Rolle und ist daher in Modellen gut zur Vorhersage von Käufen geeignet. Auch sind Verhaltensdaten wie Interaktionsdaten oftmals ein guter Prädiktor. So können die Interaktionsdaten aus der Marketing Automation Applikation und dem CRM-System in der zentralen Plattform zusammengeführt werden und dort von dem Machine Learning Service genutzt werden.
Long story short
Die aufgezeigte Kausalkette „Datenintegration-Datenqualität-Modellperformance“ hebt die Notwendigkeit von effektiver Datenintegration für einfacher und schneller umsetzbares sowie erfolgreicheres Machine Learning hervor. Kurzum: aus guter Datenintegration folgt bessere Vorhersagekraft der Machine Learning Modelle.
Betriebswirtschaftlich liegen sowohl kostensenkende als auch umsatzsteigernde Einflüsse vor. Kostensenkend ist die Entwicklung der Modelle (weniger Custom Code, damit weniger Wartung etc.). Umsatzsteigernd ist die bessere Vorhersagekraft der Modelle, was präziseres Targeting, Cross- und Upselling und ein genaueres Bewerten von Leads und Opportunities betrifft – sowohl im B2B- als auch im B2C-Bereich.
Wie benutze ich Machine Learning mit der Marini Integration Platform?
Du kannst die Daten deiner zentralen Marini Integration Platform externen Machine Learning Services und Applikationen zur Verfügung stellen. Die Anbindung funktioniert nahtlos durch die HubEngine oder direkten Zugang zur Plattform, abhängig von den Anforderungen des Drittanbieters. Ein Anbieter für Standardanwendungen des Machine Learnings im Vertrieb ist z.B. Omikron. Du kannst aber auch Standardanwendungen auf AWS oder in der Google Cloud nutzen. Eine Anbindung an deine eigenen Server ist ebenso problemlos möglich, wenn du dort deine eigenen Modelle programmieren möchtest.
Wenn du Unterstützung dabei brauchst, wie du Machine Learning Modelle in deine Plattform einbinden kannst, dann kontaktiere unseren Vertrieb. Wir helfen dir gerne weiter!
Anwendung von Machine Learning im Vertrieb
Machine Learning kann auf vielfältige Weise den Vertrieb unterstützen. Es können zum Beispiel Abschlusswahrscheinlichkeiten berechnet, Cross- und Up-Selling-Potenziale geschätzt oder Empfehlungen vorhergesagt werden. Wichtig dabei ist, dass der Vertriebler unterstützt wird und eine weitere Entscheidungshilfe erhält, anhand derer er sich besser auf seine eigentliche Tätigkeit, nämlich das Verkaufen, konzentrieren kann. So kann der Vertriebler zum Beispiel schneller erkennen, welche Leads, Opportunities oder Kunden am vielversprechendsten momentan sind und diese kontaktieren. Es bleibt jedoch klar, dass der Vertriebler die letztendliche Entscheidung trifft und durch das Machine Learning letztlich nur Erleichterungen erfährt. Schlussendlich verkauft kein Modell, sondern immer noch der Mensch.
Hier findest du eine kurze Einführung in das Thema Machine Learning und die häufigsten Anwendungsmöglichkeiten im Vertrieb.