Die KI, die Ihnen helfen wird, Ihr Unternehmen noch besser zu führen

Unternehmen streben immer nach einem höheren Grad an Intelligenz und Kontrolle über ihre Prozesse, was zu höherer Effizienz und Produktivität führt. Um in der heutigen, sich schnell entwickelnden Geschäftswelt wettbewerbsfähig zu bleiben, ist es unerlässlich, mit den neuesten technologischen Fortschritten Schritt zu halten. Digitale Zwillinge und Reinforcement Learning sind zwei sehr einflussreiche technologische Entwicklungen, die in letzter Zeit in dieser Hinsicht entstanden sind.

Durch den Einsatz von Technologien wie digitalen Zwillingen und Reinforcement Learning können Unternehmen Wettbewerbsvorteile erzielen, indem sie Kosten senken und die Qualität und Sicherheit z. B. von Produktionsprozessen verbessern. Das Aufkommen von Technologien der künstlichen Intelligenz, einschließlich Foundation Models wie ChatGPT, haben gezeigt, dass sie das Potenzial haben, die Art und Weise, wie wir arbeiten, zu revolutionieren. Werden diese technologischen Veränderungen jedoch nicht angenommen und mit dem Innovationstempo nicht Schritt gehalten, führt dies zu einem strategischen Rückstand zur Konkurenz. Die Möglichkeiten, diese Technologien zu nutzen, sind grenzenlos - es ist an der Zeit, Ihr Unternehmen auf die nächste Stufe der Digitalisierung zu heben.

Ihr Experte für Fragen

Hendrik Reese
Partner bei PwC Deutschland
E-Mail

Die nächste Stufe der Automatisierung und Entscheidungsfindung

Digitale Zwillinge bilden Objekte aus der realen Welt virtuell ab und ermöglichen die Visualisierung dieser Daten z.B. in einem Metaverse. Sie können zueinander in Beziehung gesetzt werden und die Interaktionen zwischen ihnen werden als Simulation verstanden. Stellen Sie sich zum Beispiel die Herstellung einer Schraube vor. Das klingt nach einem einfachen Prozess, aber dabei müssen viele Parameter beachtet werden, um die richtige Produktionsqualität zu erreichen. Die Maschine kann ebenso wie der Metallrohling durch einen digitalen Zwilling dargestellt werden.Wenn die Maschine den Rohling in eine Schraube verwandelt, interagieren die beiden Komponenten und ihre digitalen Zwillinge, um den Prozess zu steuern. Mit anderen Worten: Der reale Prozess wird virtuell simuliert.

„Die KI hat die Schlösser der Wissenschaft verlassen und ist bereit, Unternehmen und die Gesellschaft auf der ganzen Welt zu erobern. Jetzt ist es an der Zeit, sich anzupassen und auf dieser spannenden Reise erfolgreich zu sein.“

Hendrik Reese,Partner bei PwC Deutschland

Es gibt bereits eine Vielzahl von Simulationswerkzeugen, die Simulationen explizit modellieren. Dennoch ist die Erstellung einer Simulationen oft schwierig, mühsam und zeitaufwendig, da nur wenig explizites Wissen über die möglichen Wechselwirkungen zwischen den Komponenten und damit den digitalen Zwillingen vorhanden ist. So sind z.B. nicht alle Prozesse und Wechselwirkungen, die die Verarbeitung des Rohlings beeinflussen, bekannt, geschweige denn explizit modellierbar, wie z.B. der Einfluss des Umgebungsdrucks oder der Rohlingsqualität. Diese Lücke kann mit Hilfe von KI geschlossen werden.

Aufbauend auf der Datenbasis der entsprechenden digitalen Zwillinge müssen die komplexen Einflussfaktoren nicht explizit modelliert werden, sondern werden von der KI gelernt. Auf diese Weise entstehen KI-basierte Simulationen, die lediglich die Erfassung von Daten erfordern und z.B. die zeitaufwändige Simulationsmodellierung ersparen. KI-Technologien auf der Basis von digitalen Zwillingen stellen somit einen Wendepunkt für Unternehmen dar, die ihre Effizienz und Produktivität steigern und das Potenzial ihrer digitalen Transformation voll ausschöpfen wollen.

KI-basierte Simulation ist eine geeignete Grundlage für Reinforcement Learning (RL). Diese Art von KI lernt aus vergangenen Erfahrungen, indem sie mit ihrer Umgebung interagiert, anstatt sich ausschließlich auf gelabelte Datensätze zu verlassen. Dadurch eignet sie sich gut für Aufgaben, bei denen die optimalen Aktionen, z.B. Maschinenparameter, nicht genau definiert oder a priori schwer zu bestimmen sind. Um auf das Schraubenbeispiel zurückzukommen: Eine in der simulierten Umgebung trainierte KI kann dann auf der realen Maschine eingesetzt werden und ohne kostspielige menschliche Eingriffe selbstständig optimale Schrauben herstellen. Die Kombination von digitalen Zwillingen und KI hat somit das Potenzial, die Art und Weise, wie Geschäftsentscheidungen getroffen werden, zu revolutionieren. Umfragen zeigen, dass 62 % der Unternehmen, die RL einsetzen, bereits nach maximal drei Monaten davon profitieren.

Sie haben Fragen?

Kontaktieren Sie unsere Expert:innen

Entdecken Sie die Vorteile

Bevor wir uns mit den Vorteilen des Reinforcement Learning befassen, sollten wir einen kurzen Blick in den Maschinenraum werfen: Reinforcement Learning ist ein Teilgebiet der KI und (in seiner ursprünglichen Form) vom bekannten Paradigma des maschinellen Lernens getrennt (siehe unten).

Das RL-Konzept besteht aus einer Umgebung, in der ein sogenannter Agent Aktionen ausführt. Um auf das Beispiel von oben zurückzukommen, könnte die Schraubenproduktionsmaschine nicht von einem Menschen, sondern von einer KI-Einheit, dem Agenten, gesteuert werden. Dieser passt die Maschinenparameter (Aktionen) so an, dass immer die gewünschte Schraubenqualität produziert wird. In einer statischen Umgebung ohne Schwankungen, z. B. bei der Qualität des Rohlings, der Maschinen- oder Umgebungstemperatur, bietet dieser Ersatz keinen großen geschäftlichen Vorteil. Im Allgemeinen treffen diese Annahmen jedoch nicht zu, und die Schraubenfertigungsmaschine ist in eine reale Umgebung mit sich ändernden Bedingungen eingebettet. Wie ein Mensch muss der Agent zunächst lernen, wie er die Maschinenparameter an unterschiedliche Umgebungsbedingungen anpassen muss, um eine konstante Qualität zu gewährleisten. Der Agent lernt die Wahl der optimalen Maschinenparameter durch Interaktion mit der Umgebung während des Trainings und somit aus Erfahrung wie der Mensch an der echten Maschine.

Der große Vorteil eines RL-Agenten gegenüber der manuellen Einstellung der Maschinenparameter für jede einzelne Schraube ist eine Produktion ohne Verzögerungen, z. B. durch das Einrichten der Maschine. Außerdem arbeitet der Agent den ganzen Tag über mit der gleichen Geschwindigkeit und Qualität, was die Produktivität erhöht und zu weniger Fehlern führt. Für einen technologischen Deep-Dive verweisen wir hier auf unseren favorisierten Abschnitt weiter unten - den "AI-Enthusiasten-Bereich".

Um die Vorteile von RL weiter zu verbessern, kann es mit dem Paradigma des maschinellen Lernens kombiniert werden. Ein beliebter Ansatz ist Deep Reinforcement Learning (DRL), der Deep Learning als Teil des maschinellen Lernparadigmas und Reinforcement Learning integriert. Beim Deep Reinforcement Learning wird der Agent durch ein neuronales Netz repräsentiert, das lernt, wie die Maschine zu steuern ist. Der Hauptvorteil besteht in der Fähigkeit, verborgene Muster für die Steuerung der Maschine zu erkennen, die für einen menschlichen Bediener zu komplex zu verstehen sind.

Die Fähigkeit, selbstständig Lösungen und verborgene Strategien für komplexe Aufgaben zu finden, die sonst ein intensives menschliches Eingreifen erfordern würden, macht DRL zu einer herausragenden Technologie im Bereich der KI. Diese Art der Automatisierung führt zu größerer Effizienz, verbesserter und konstanter Produktqualität und besserer Robustheit gegenüber Prozessschwankungen (wie z.B. im obigen Beispiel der Schraubenproduktion).

Die Vorteile dieser Automatisierung können auch genutzt werden, um z.B. den Mangel an gut ausgebildetem Personal zu verringern. Abgesehen davon, dass die Suche nach gut geeignetem Personal, z.B. für die Produktionsmontage oder das Schweißen, eine teure und zeitaufwändige Aufgabe ist, kann RL auch die Abhängigkeit von diesem hochspezialisierten Personal reduzieren. Ein weiterer großer Vorteil von RL ist, dass für die Erstellung eines RL-gesteuerten Schweißroboters im Vergleich zu klassischen maschinellen Lernansätzen deutlich weniger Trainingsdaten benötigt werden. Der Grund dafür ist die Fähigkeit von RL, eine eigene Lösungsstrategie zu entwickeln, anstatt die zu lernende Lösung vordefiniert zu bekommen. Die Schraubenmaschine stellt nur die Spitze des Eisbergs dar. Es gibt unendlich weitere Anwendungen von DRL über alle Branchen, die bereits in der Entwicklung und Einsatz sind.

RL Anwendungsfälle

Smart Manufacturing

In a smart manufacturing facility, a Reinforcement Learning system can be employed to optimize the production process of electronic devices. The RL system interacts with the machines, adjusting parameters like machine speed, temperature, and material usage to maximize production output while minimizing defects and resource consumption. Through continuous trial and error, the RL system learns and refines its strategies, adapting to changing conditions such as raw material variations or market demand. As a result, the smart manufacturing system achieves higher production efficiency, reduced defects, and improved resource utilization, leading to enhanced profitability and competitive advantage.

Logistik

Autonome Systeme in der Logistik, die auf Reinforcement Learning basieren, ermöglichen einen effizienten Betrieb von Lagern ohne menschliches Eingreifen und optimieren Aufgaben wie Bestandsmanagement und Materialumschlag. Durch den Einsatz von RL-basierten Robotern wird das Risiko von Unfällen und Verletzungen reduziert, da Menschen aus potenziell gefährlichen Umgebungen entfernt werden. Der kontinuierliche Betrieb und die Skalierbarkeit autonomer Systeme verbessern die Produktivität und erfüllen die steigenden Anforderungen, was zu einem effizienteren und kosteneffektiveren Logistikbetrieb führt.

Real Estate

Ein Immobilienunternehmen kann einen digitalen Zwilling einsetzen, um den Energieverbrauch zu optimieren, die Erfahrungen der Mieter zu verbessern und die Raumverwaltung zu optimieren. Durch die Überwachung und Analyse von Daten aus verschiedenen Quellen (z.B. Lichtsensoren) in Echtzeit kann das Unternehmen Ineffizienzen erkennen, Systeme anpassen und Energiekosten senken. Der digitale Zwilling ermöglicht es den Mietern außerdem, ihre Räume zu kontrollieren, Wartungsdienste anzufordern und auf Gebäudeinformationen zuzugreifen, was zu einer höheren Zufriedenheit und einem größeren Engagement führt.

Medizin

Reinforcement Learning kann im Bereich der Medizin eine wichtige Rolle spielen, indem es robustere und schnellere Diagnosen ermöglicht und die Entwicklung von Therapien erleichtert. Durch die Nutzung von Krankheitsergebnissen und Patientenfeedback können RL-Systeme kontinuierlich lernen und sich anpassen, um neue und verbesserte Behandlungsschemata zu entdecken, die das Wohlbefinden der Patienten verbessern. Dieser iterative Prozess ermöglicht personalisierte und optimierte Ansätze in der Gesundheitsversorgung, die letztlich zu besseren Ergebnissen für die Patienten und einer höheren Qualität der Pflege führen.

Chatbots

ChatGPT demonstriert auf eindrucksvolle Weise die Verwendung von Reinforcement Learning zur Nachahmung der menschlichen Artikulation in Chatbots. Durch Reinforcement Learning optimiert ChatGPT sein Verhalten, indem es das Feedback und die Bewertungen der Benutzer zu früheren Unterhaltungen einbezieht. Durch die iterative Anpassung seiner Parameter auf der Grundlage dieses Feedbacks verbessert ChatGPT seine Fähigkeit, angemessenere und zufriedenstellendere Antworten zu geben, was zu natürlicheren und ansprechenderen Gesprächen führt.

Finanzsektor

Reinforcement Learning Systeme im Finanzsektor haben das Potenzial, Anlagestrategien und Risikomanagement zu revolutionieren. Durch die Nutzung historischer Finanzdaten können RL-basierte Systeme die Ergebnisse verschiedener Anlagestrategien simulieren und bewerten und so die Entwicklung innovativer und robusterer Ansätze ermöglichen. Diese Systeme lernen aus der Vergangenheit, passen sich an veränderte Marktbedingungen an und optimieren Anlageentscheidungen, um letztlich höhere Renditen zu erzielen und die Risiken für die Anleger zu minimieren.

Marketing

Im Marketing kann ein auf Reinforcement Learning basierendes System das Kundenverhalten und die Kaufdaten nutzen, um Produkte zu empfehlen, die den Umsatz am wahrscheinlichsten maximieren. Durch die Analyse der individuellen Kundenpräferenzen und -interaktionen kann das RL-System kontinuierlich lernen und seine Verkaufsstrategie anpassen, um die Empfehlungen für jeden Kunden zu optimieren. Dieser personalisierte Ansatz verbessert das Kundenerlebnis, erhöht die Chancen auf erfolgreiche Verkaufsabschlüsse und sorgt letztlich für höhere Umsätze und Erträge für das Unternehmen.

All diese Anwendungen sind ein Beweis für das Potenzial von RL, die technologische Bereitschaft und die Fähigkeit, einen echten geschäftlichen Nutzen in einer Vielzahl von Branchen zu schaffen. Unser Team schöpft in diesem Zusammenhang aus einem reichen Erfahrungsschatz, z.B. bei der Konzeption, Verwaltung, Programmierung von Anwendungen und der Auswahl geeigneter Daten, und ist bereit, die richtige Lösung für weitere Unternehmen und Anwendungen zu finden, damit die Industrie die Vorteile von RL nutzen kann. Zusätzlich zu den offensichtlichen Vorteilen von RL bietet es auch die Vorteile des kontinuierlichen Lernens, der Anpassung an sich verändernde Umgebungen, der Suche nach neuen Strategien zur Lösung von Problemen und der hohen Skalierbarkeit. Darüber hinaus, und von entscheidender Bedeutung ist das gute Verständnis von RL aus akademischer und geschäftlicher Sicht, was das Risiko bei der Entwicklung von RL-Systemen kalkulierbar macht.

Digitale Zwillinge fördern das Vertrauen

Die Vorteile der Kosten- und Zeitersparnis durch den Einsatz von RL können durch die Optimierung der Trainingsphase von RL-Modellen noch weiter gesteigert werden. Das Training von RL-Modellen in einer realen Umgebung ist aufgrund hoher Kosten, eines hohen Zeitaufwands und der damit verbundenen Risiken oft eine Herausforderung. Die Verwendung eines echten Schweißroboters für das Training funktioniert zwar, verursacht aber hohe Materialkosten, beschädigt höchstwahrscheinlich den Roboter selbst und nimmt viel Zeit in Anspruch. Das RL-Konzept kann jedoch auch in virtuellen Umgebungen umgesetzt werden, die die realen Bedingungen gut genug simulieren. Dies ermöglicht ein Agententraining ohne das Risiko, schwere Schäden zu verursachen, und senkt die Entwicklungskosten massiv. Die Virtualisierung des Trainings ermöglicht zudem das parallele Training mehrerer Agenten, was die Trainingszeiten und damit auch die Kosten noch weiter senkt. Wenn beispielsweise ein Agent für das autonome Fahren virtuell trainiert wird, vermeidet man potenziell kostspielige und gefährliche Risiken in der realen Welt. Nach dem Training in der virtuellen Umgebung wird der Agent in der realen Welt eingesetzt und handelt entsprechend seiner erlernten Strategie. Die in das agile Projektmanagement eingebetteten kaskadierenden Entwicklungsschritte verkürzen die Zeit bis zum ROI und minimieren die Prozessrisiken, da bei der Projektumsetzung schnell und regelmäßig Anpassungen vorgenommen werden können.

„Die KI ist inzwischen so weit, dass sie in realen Produkten eingesetzt werden kann. Mit ihr sind Dinge möglich, die vor nicht allzu langer Zeit noch unmöglich schienen. Es sind großartige Zeiten mit großartigen Möglichkeiten.“

Dr. Janis Kesten-Kühne,Manager bei PwC Deutschland

Die Anwendbarkeit des Agenten in der realen Welt hängt maßgeblich davon ab, wie gut die virtuelle Umgebung die reale Welt abbildet, was als Simulations-Realitäts-Lücke bezeichnet wird. Im Allgemeinen ist es nicht notwendig und auch sehr kostspielig, eine virtuelle Umgebung zu schaffen, die die Realität exakt abbildet. Stattdessen ist es wichtiger, eine Umgebung zu entwickeln, die ein hinreichend vollständiges Bild der Realität vermittelt und gleichzeitig unnötige Informationen weglässt. Eine solche Konzentration auf das Wesentliche erfordert ein gutes Verständnis der realen Welt. Letztlich führt sie zu einem angemessenen Gleichgewicht zwischen Genauigkeit und Kosteneffizienz, um die Vorteile der virtuellen Umgebung bestmöglich zu nutzen.

Eine hervorragende Methode, um den goldenen Mittelweg zwischen Kosten und Genauigkeit zu finden, sind digitale Zwillinge. Im Kontext von RL stellen digitale Zwillinge die realen Entitäten dar und dienen als virtuelle Umgebung für das Training des Agenten. Zusätzlich kann der Agent selbst durch einen digitalen Zwilling einer realen Entität repräsentiert werden, z. B. der Maschine zur Schraubenherstellung. Diese digitale Repräsentation der realen Welt durch in Echtzeit aktualisierte digitale Zwillinge ermöglicht es, Agenten gezielt zu trainieren, die während ihres Einsatzes in der realen Welt fehlerfrei funktionieren. Durch die semantische Datenstrukturierung und die Echtzeitaktualisierung durch digitale Zwillinge können DRL-Algorithmen in einer sicheren und vertrauenswürdigen virtuellen Umgebung trainiert werden. Diese Grundlage ermöglicht dann die Entwicklung von DRL-Modellen.

PwC, ein zuverlässiger Partner für vertrauenswürdige KI

Wir glauben daran, dass wir durch digitale Zwillinge und Reinforcement Learning die Transformation von Unternehmen vorantreiben können. Mit unserem starken technologischen Hintergrund verstehen wir die Fähigkeiten von RL und sind bestrebt, Sie in die Lage zu versetzen, die großen technologischen KI-Fortschritte für sich zu nutzen. PwC ist der ideale Partner für Unternehmen, die traditionelle Prozesse und Systeme überwinden und ihre Abläufe durch eine digitale Transformation auf der Grundlage von digitalen Zwillingen und KI optimieren wollen. Als führendes und verantwortungsvolles Unternehmen legen wir einen starken Fokus auf Compliance und Regulierung und stellen sicher, dass unsere Lösungen die höchsten Standards in Bezug auf Sicherheit, Schutz, Privatsphäre und Skalierbarkeit erfüllen. Wir wissen, dass die Implementierung von RL ein tiefes Verständnis der Technologie und potenzieller Risiken erfordert, einschließlich der Genauigkeit, Zuverlässigkeit und Verzerrung von Daten. Um die Vertrauenswürdigkeit der verwendeten Daten, Algorithmen und RL-Agenten zu gewährleisten, setzen wir Transparenz, Data Governance und Validierungsprozesse und -kontrollen ein, um sicherzustellen, dass die getroffenen Entscheidungen genau, sicher und ethisch vertretbar sind.

Unser Expertenteam aus den Bereichen Technik, Governance und Unternehmertum arbeitet eng mit Ihnen zusammen, um Ihre individuellen Bedürfnisse zu verstehen und eine maßgeschneiderte, auf RL und digitalen Zwillingen basierende Lösung zu entwickeln, die Ihre spezifischen Anforderungen bei jedem Entwicklungsschritt erfüllt: von der Planung über die Implementierung bis hin zum laufenden Support und zur Wartung. Wir unterstützen Sie bei der Einhaltung von Vorschriften, denn PwC setzt auf langfristige Beziehungen, die auf Vertrauen, Zuverlässigkeit und Engagement fundiert sind.

AI-Enthusiasten Abschnitt

Das zentrale Ziel eines RL-Agenten ist es, durch die Wahl der richtigen Aktion in jedem Zustand, in dem er sich während einer Episode befindet, eine möglichst hohe Gesamtbelohnung zu erzielen. Dabei kann die Belohnung explizit oder implizit diverse Ziele abbilden, z.B. das Erreichen eines Punktes auf dem kürzesten Weg oder die Herstellung eines Produkts von immer gleicher Qualität. Das RL-Paradigma folgt einem klaren Lernverfahren: Während des Trainings beobachtet der Agent einen Umgebungszustand (der im Zustandsraum liegt) und leitet daraus eine Belohnung ab. Auf der Grundlage seiner Strategie (die vorsieht die höchste Belohnung anzustreben) entscheidet sich der Agent in jedem Zustand und unter Berücksichtigung jedes Zustands, in dem er sich zuvor befunden hat, für eine Aktion innerhalb des Aktionsraums, um die Umgebung zu manipulieren. Bei der Umgebung kann es sich um die reale Welt, eine geeignete Simulation oder eine Art gut angepasste Sandbox handeln, die dem Agenten die Zustands-Aktionspaar entsprechende Belohnung zurückgibt. Die Aktion wird so gewählt, dass die kumulierte erwartete (und meist diskontierte) Belohnung auf dem Weg zum Endziel maximiert wird. Die gewählte Aktion manipuliert anschließend die Umwelt und der neue Zustand sowie die daraus resultierende Belohnung werden an den Agenten zurückgegeben. Auf der Grundlage des Tupels <Zustand, Aktion, Belohnung> aktualisiert der Agent seine Strategie mithilfe eines speziellen Lernalgorithmus, um die erwartete Belohnung zu verbessern. Dieses Verfahren zielt darauf ab, die Strategie zu finden, die das Ziel auf die effizienteste Weise erreicht. Nach dem Trainingsverfahren folgt die Inferenzphase. In dieser Phase wird der Agent ausgeliefert und passt seine Handlungen selbstständig an, um den gewünschten Zielzustand auf der Grundlage der in der Trainingsphase erlernten Strategie zu erreichen.