← Zurück zum Blog
Industrielle Prozessleitzentrale

Neuronale-Netz-Regler in der Industrie: Wie viele sind wirklich im Einsatz?

Veröffentlicht am 23. März 2026 von Dr. Rafał Noga
Neural NetworksReinforcement LearningAPCProcess ControlIndustrial AIDeep RL

Die industrielle KI-Revolution ist in aller Munde. Anbieter versprechen KI-gesteuerte Anlagen, autonome Prozesse, selbstoptimierende Fabriken. Die Frage, die es sich lohnt zu stellen — und die selten klar genug gestellt wird — lautet: Wie viel davon ist tatsächlich ein neuronaler Netz-Regler, der im geschlossenen Regelkreis auf realen Produktionsanlagen läuft?

Die ehrliche Antwort lautet: sehr wenig. Die Lücke zwischen dem, was als „industrielle KI” vermarktet wird, und dem, was tatsächlich als neuronaler Netz-Regler betrieben wird, ist erheblich — und dieses Gap zu verstehen ist nützlicher als das Marketingversprechen zu akzeptieren.

Eine Übersichtsarbeit aus dem Jahr 2025 über 672 Studien zur industriellen Automatisierung ergab, dass nur 22 % der veröffentlichten Forschung zu KNN-Reglern reale Implementierungen enthielt — Laboraufbauten, Pilotanlagen und Produktionssysteme zusammengenommen. Die restlichen 78 % verließen nie die Simulation.[1] Von diesen realen Implementierungen sind die große Mehrheit forschungsnahe Aufbauten: universitäre Versuchsstände, Kleinpiloten, Proof-of-Concept-Demonstrationen. Bestätigte Deployments auf realen industriellen Produktionssystemen — mit dokumentierten quantifizierten Ergebnissen — belaufen sich auf zehn.


Wo „industrielle KI” wirklich stattfindet

Wenn Praktiker und Anbieter den Begriff „industrielle KI” verwenden, meinen sie typischerweise eines von mehreren unterschiedlichen Dingen. Nur eines davon ist ein neuronaler Netz-Regler, der im geschlossenen Regelkreis in einer Produktionsanlage läuft.

Die Frage wird mit neuer Dringlichkeit gestellt, weil die aktuelle KI-Welle von großen Sprachmodellen angetrieben wird — GPT, Gemini, Claude. LLMs sind neuronale Netze, und ihr dramatischer Einfluss auf die Textverarbeitung hat jede Branche dazu gebracht zu fragen: Kann dieselbe Technologie uns transformieren? Bei der Prozessregelung erfordert die Antwort die Unterscheidung zwischen dem, was LLMs tun, und dem, was ein Regelungssystem leisten muss. LLMs sind Muster-Matching-Systeme, die auf statischen Textkorpora trainiert werden. Ein Prozessregler muss eine Regelschleife in Echtzeit schließen, harte physikalische Einschränkungen einhalten und unter Störungen stabil bleiben — ein grundlegend anderes Problem. Die relevante neuronale Netzarchitektur für die Regelung ist nicht der Transformer, sondern das durch Reinforcement Learning trainierte Policy-Netzwerk. Und die anderen als „industrielle KI” bezeichneten Werkzeuge — MPC, Soft Sensors, Digitale Zwillinge, Scheduling-Optimierung — existieren seit Jahrzehnten vor der LLM-Ära. Sie wurden nicht durch GPT nützlich.

Wie es genannt wirdWas es tatsächlich istSchließt den Regelkreis?
Predictive MaintenanceAnomalieerkennung an Schwingungen, Temperatur, StromNein — nur beratend
Digital TwinOffline-Simulationsmodell für Planung oder TrainingNein
Soft Sensor / virtueller SensorRegressionsmodell zur Schätzung nicht messbarer QualitätsgrößenManchmal — in Supervisory-Rolle
ProzessoptimierungLP/MILP-Scheduling, Chargenplanung, nicht echtzeitNein
APC / MPCLineares modellprädiktives Regeln — seit den 1980ern im EinsatzJa — aber kein neuronales Netz
KNN-ReglerDas, worum es beim Hype gehtSelten — siehe unten

Fortschrittliche Prozessregelung mit linearem MPC wird seit vierzig Jahren industriell eingesetzt. Sie ist in die DCS-Plattformen aller großen Anbieter integriert und ist Standard in der Raffinerie-, Petrochemie- und Polymerproduktion. Wenn eine Anlage „KI-gestützte Optimierung” behauptet, ist damit oft ein MPC gemeint, der in den 1990ern installiert wurde. Wenn ein Gebäudemanagement-Anbieter „KI-Energiemanagement” behauptet, ist damit oft ein regelbasierter Planer gemeint, der umbenannt wurde.

Das ist nicht unehrlich — das sind nützliche Werkzeuge. Aber sie sind nicht das, was „neuronaler Netz-Regler” bedeutet, und ihre Gleichsetzung übertreibt den scheinbaren Reifegrad der KNN-basierten Regelung.


Die bestätigte Zahl

Nach einer umfassenden Sichtung der öffentlichen Quellenlage beläuft sich die Zahl der bestätigten neuronalen Netz- oder Reinforcement-Learning-Regler, die im geschlossenen Regelkreis auf realen industriellen Produktionssystemen laufen — mit dokumentierten quantifizierten Ergebnissen und verifizierbaren Quellen — auf zehn.

Tokamak-Reaktoren, Universitätsversuchsanlagen und Arbeiten, die Algorithmen auf historischen Industriedaten validieren, sind ausgeschlossen. Dies sind Fälle, in denen der Regler bestätigt im geschlossenen Regelkreis auf einer realen Produktionsanlage läuft.


Die zehn bestätigten Deployments

1. Erdölraffinerie — Imubit, USA

Imubit hat einen KNN-Prädiktor kombiniert mit einem RL-trainierten Optimierungsregler in mehr als 90 Live-Anwendungen in industriellen Verarbeitungsanlagen ausgerollt, mit Kunden darunter 7 der 10 größten US-Raffinerien — Marathon Petroleum, HF Sinclair und Citgo gehören dazu.[2] Das Unternehmen brachte sein dediziertes RL-Produkt im September 2024 auf den Markt.[3]

Dokumentierte Ergebnisse: 0,30–0,50 USD pro Barrel Margenverbesserung im Raffineriebetrieb; bis zu 30 % Erdgasreduktion im Drehrohrofenbetrieb.[2]

2. Chemische Destillation — JSR / Yokogawa, Japan

Im Januar–Februar 2022 lief Yokogawas FKDPP-RL-Regler 840 aufeinanderfolgende Stunden (35 Tage) im vollautonomen geschlossenen Regelkreis einer Destillationskolonne in einer JSR-Produktionsanlage — dokumentiert als Weltpremiere für die direkte RL-Regelung einer Variablen in einer chemischen Anlage.[4] Nach einer einjährigen erweiterten Erprobung adoptierte ENEOS Materials das System im März 2023 formal in der Produktion.[5]

3. Luftzerlegungsanlage, 2021

Blum et al. berichten über einen modellbasierten Deep-RL-Regler, der in einer Produktions-Luftzerlegungsanlage betrieben wird, direkt verglichen mit dem vorherigen linearen MPC-System.[6]

4. Industrielle Trennwandkolonne, 2025

Park et al. berichten über Offline-RL zur Temperaturregelung einer industriellen Trennwandkolonne mit einer Automatisierungsrate von 93,11 % gegenüber dem manuellen Betrieb.[7] Die Policy wurde auf gespeicherten historischen Daten trainiert — ohne Live-Erkundung der Anlage.

5. Industrieller Photobioreaktor, 2025

Gil et al. berichten über RL mit Verhaltensklonierung in einem industriellen Photobioreaktor zur pH-Regelung mit einem achttägigen Dauerbetrieb unter wechselnden Umgebungsbedingungen.[8]

6. Fernwärme — 13 Gebäude, 2026

Moshari et al. berichten über modellfreies RL für Fernwärme in 13 realen Gebäuden über 138 Wintertage: 29,7 % Heizenergiereduzierung gegenüber historischen Basiswerten, keine Hardware-Upgrades erforderlich.[9]

7. Büro-HLK / TABS — SAC-Regler, 2024

Silvestri et al. berichten über einen Soft-Actor-Critic-Regler in einem realen Bürogebäude über eine zweimonatige Kühlsaison: 68 % weniger Temperaturkomfort-Verletzungen ohne erhöhten Energieverbrauch.[10]

8. Büro-HLK — Transfer Learning, 2025

Coraci et al. berichten über einen DRL-Regler, der mittels Online-Transfer-Learning (HiLo-Fallstudie) von einem Gebäude auf ein zweites übertragen wurde — Multi-Site-Deployment ohne Neutraining von Grund auf.[11]

9. Büro-HLK — Imitationslernen, 2025

Silvestri et al. berichten über einen imitationslerngestützten DRL-Regler an einem TABS-System, bei dem die Policy-Initialisierung aus Expertenbetrieb riskantes Frühphasenverhalten reduzierte.[12]

10. Rechenzentrumskühlung — Google DeepMind, weltweit

2016 demonstrierte DeepMind eine 40 % Reduzierung der Kühlenergie (15 % PUE-Gesamtreduzierung) mit einem KI-Beratungssystem.[13] 2018 wurde das System auf direkte KI-Steuerung der Kühlaktuatoren aufgerüstet — ~30 % dauerhafte Kühlenergieersparnis unter Bedienaufsicht.[14] 2022 wandte Trane Technologies denselben Ansatz auf zwei kommerzielle (Nicht-Google-)Gebäude an und meldete 9 % und 13 % Energieeinsparungen in diesen Live-Experimenten.[15]


Warum ist die Zahl nicht größer?

Zehn bestätigte Deployments auf der gesamten globalen Industriebasis ist eine kleine Zahl. Klein nicht weil die Technologie nicht funktioniert — die bestätigten Fälle beweisen, dass sie es tut —, sondern weil ein spezifischer Satz von Voraussetzungen erfüllt sein muss, den die meisten Anlagen noch nicht erfüllen.

Die dominanten Gründe:

Das Reward-Signal-Problem. RL-Regler lernen durch Optimierung einer Reward-Funktion. Wenn die zu optimierende Größe nicht in Echtzeit aus vorhandener Instrumentierung gemessen werden kann, gibt es keinen Reward zu berechnen. Zementklinkerqualität erfordert Ofenprobenahme und Laboranalyse — Stunden nach der Regelungsentscheidung. Halbleiter-CD wird von Messtechnikinstrumenten mit mehrstündigen Warteschlangen gemessen. Chargenproduktqualität ist nur am Chargenende bekannt. In jedem dieser Fälle ist der Reward verzögert, sporadisch oder absent, was geschlossene KNN-Regelung mit aktuellen Methoden unpraktikabel macht.[16]

Das Erkundungsproblem. Modellfreies Online-RL erfordert, dass der Agent Erkundungsaktionen durchführt — Dinge ausprobiert, die er noch nicht ausprobiert hat. Auf einer Live-Produktionsanlage können Erkundungsaktionen, die Betriebseinschränkungen verletzen, zu Anlagenschäden, Sicherheitsvorfällen oder Produktverlust führen. Das ist durch Offline-RL oder modellbasiertes RL handhabbar, fügt aber erheblichen Engineering-Aufwand hinzu, den das einfache Versprechen „KI-Regler deployen” auslässt.[18]

MPC funktioniert bereits gut. Für einen Großteil industrieller Regelungsprobleme behandelt ein gut eingerichtetes lineares MPC bereits die Einschränkungen und wirtschaftlichen Ziele mit hoher Interpretierbarkeit und etablierten Zertifizierungspfaden. Der Business Case für KNN-Regelung muss mit Best-in-Class-MPC verglichen werden, nicht mit einer schlecht abgestimmten PID-Basislinie. Wo MPC gut funktioniert, ergibt der Mehraufwand der KNN-Regelung keinen Business Case.[1]

Vertrauen der Bediener. KNN-Regler produzieren keine interpretierbaren Erklärungen für ihre Entscheidungen. Für Bediener, die mit MPC arbeiten — wo die Kostenfunktion explizit und die vorhergesagte Trajektorie sichtbar ist —, ist diese Opazität eine echte Hürde. Die bestätigten Deployments haben sie alle durch ausgedehnte Erprobungszeiträume, explizite Fallback-Modi und nachhaltige Bedienereinbindung adressiert. Anlagen, die diesen Schritt überspringen, stellen typischerweise fest, dass Bediener innerhalb von Tagen auf manuellen Betrieb umschalten.


Die ROI-Tabelle aus bestätigten Fällen

SektorGemeldeter NutzenGrundlage
Erdölraffinerie0,30–0,50 USD/Barrel MargenverbesserungImubit, 90+ Live-Anwendungen[2]
Chemische Destillation93,11 % Automatisierungsrate vs. manuellPark et al., industrielle TWK[7]
Gebäude-HLK29,7 % HeizenergiereduzierungMoshari et al., 13 Gebäude[9]
Gebäude-HLK68 % weniger KomfortverletzungenSilvestri et al., Bürogebäude[10]
Rechenzentrumskühlung~30 % Kühlenergieersparnis (autonom)DeepMind, Google-RZs[14]
DrehrohrofenbetriebBis zu 30 % ErdgasreduzierungImubit[2]

Sind Sie ein geeigneter Kandidat?

Nicht jede Anlage mit einem Regelungsproblem ist ein geeigneter Kandidat für KNN-Regelung. Die bestätigten Deployments zeigen ein klares Profil.

Sie haben ein messbares Ziel, das bereits in Ihrem Historian liegt. Jedes bestätigte Deployment optimiert eine Metrik — Dollar-Marge pro Barrel, verbrauchte kWh, Automatisierungsrate, pH-Abweichung —, die in Echtzeit aus vorhandener Instrumentierung berechnet werden kann.

Ihr Prozess weist nichtlineare Wechselwirkungen auf, die Ihre aktuelle Regelungsstrategie konservativ behandelt. KNN-Regler rechtfertigen ihre Kosten in Situationen, wo die Beziehung zwischen Eingangs- und Ausgangsgrößen nichtlinear ist, wo mehrere Variablen interagieren, und wo der aktuelle Ansatz Leistung auf dem Tisch lässt.

Sie haben mindestens 6–12 Monate kontinuierliche Historian-Daten bei Abtastraten von 5 Minuten oder schneller. Offline-RL und modellbasiertes RL — die Methoden in jedem bestätigten Prozessindustrie-Deployment — erfordern substanzielle gespeicherte Daten.[7]

Ihr DCS oder BMS kann externe Sollwert-Vorgaben empfangen. Alle zehn bestätigten Deployments arbeiten in einer Supervisory-Rolle: Der KNN-Regler sendet Sollwerte an die bestehende Regelungsschicht, die sie ausführt.

Die Kosten einer suboptimalen Entscheidung sind begrenzt und reversibel. In der Erdölraffinerie kostet ein suboptimaler FCC-Sollwert Marge — unerwünscht, aber reversibel. In einem Gebäude erzeugt ein schlechter Heizungssollwert für eine Stunde ein leicht unbehagliches Zimmer.


Technische Voraussetzungen

Historian mit ausreichender Abdeckung und Abtastrate. Das Minimum sind typischerweise 6–12 Monate Daten, die mehrere Betriebsbedingungen abdecken, bei einer Abtastrate, die die relevante Prozessdynamik erfasst.

Eine formalisierte Zielfunktion. Sie müssen einen mathematischen Ausdruck für „bessere Regelung” schreiben können, der Variablen aus dem Historian verwendet. Das ist kein Software-Problem — es ist ein Engineering- und Business-Problem.

Ein validiertes Prozessmodell oder die Bereitschaft, eines zu trainieren. Für sicherheitsbeschränkte Prozesse ist die bestätigte Deployment-Strategie modellbasiertes RL: Policy in einem validierten Simulator trainieren, dann auf die reale Anlage übertragen.

DCS/BMS-Integrationsfähigkeit. Das Standardintegrationsmuster: KNN-Regler läuft auf einem Edge-Server, liest Tags vom Historian oder OPC-UA-Server und schreibt Sollwert-Vorgaben mit einem definierten Zyklus (typischerweise Minuten) zurück ins DCS.

Inferenz-Runtime für das KNN-Modell. Die trainierte Policy läuft auf einem Edge-Server oder Prozessrechner — nicht im SPS selbst. Das Standardexportformat ist ONNX (portabel über Trainingsframeworks hinweg), bereitgestellt durch ONNX Runtime für CPU-Inferenz oder TensorRT für GPU-beschleunigte Inferenz. Für Siemens-S7-1500-Nutzer unterstützt der AI Inference Server-Zusatz ONNX-Modelle direkt; Beckhoffs TwinCAT Machine Learning-Erweiterung bietet dieselbe Funktionalität auf TwinCAT-3-Systemen. MATLABs Deep Learning Toolbox mit Simulink generiert direkt aus trainierten Netzen deploybaren Code. Für Prozessregelkreise mit Zykluszeiten im Minutenbereich ist Standard-CPU-Inferenz mehr als ausreichend. Schnelle Regelkreise — Maschinenbewegung (1–10 ms Zykluszeit), schnelle Reaktortemperatur oder -druck (Sekunden-Dynamik) — erfordern eine Latenzvalidierung, bevor die Modellarchitektur festgelegt wird.

Bedienerakzeptanzprotokoll. Jedes bestätigte Deployment enthält einen Mechanismus für Bediener, KI-Regelung zu verlassen und auf den vorherigen Modus zurückzukehren. Das JSR/Yokogawa-Deployment bezog die Bediener explizit während der gesamten Erprobungsphase ein.[4]


Enabler: Was erfolgreiche Deployments ermöglicht

Offline-RL löst das Erkundungsproblem. Offline-RL, das eine Policy vollständig aus gespeicherten historischen Daten ohne Online-Interaktion mit der Anlage lernt, beseitigt die größte praktische Hürde vollständig.[17]

Verhaltensklonierung und Imitationslernen für sichere Initialisierung. Wo etwas Online-Lernen nach dem Deployment benötigt wird, stellt die Initialisierung der KNN-Policy aus Experten-Bedienervorführungen sicher, dass das System innerhalb des sicheren Betriebsbereichs startet.[12]

Modellbasiertes RL für physische Systeme mit hohen Erkundungskosten. Wo ein validiertes dynamisches Modell existiert, kann die RL-Policy in der Simulation auf ein hohes Kompetenzniveau trainiert werden, bevor die reale Anlage berührt wird.[6]

Transfer Learning für Multi-Site-Deployment. Einmal trainiert und validiert auf einer Anlage, ermöglicht Transfer Learning die Anpassung an eine zweite ähnliche Anlage zu deutlich geringeren Kosten als ein Neutraining.[11]


Modellpflege nach dem Deployment

Ein einmal deployeter KNN-Regler ist kein Set-and-Forget-System. Industrieprozesse driften — die Rohstoffzusammensetzung ändert sich, Anlagen altern, Betriebsziele verschieben sich — und eine auf historischen Daten trainierte Policy wird über die Zeit an Leistung verlieren, wenn sie nicht gepflegt wird.

Nachtrainings-Häufigkeit hängt davon ab, wie schnell der Prozess driftet. Der praktische Ansatz besteht darin, den Leistungs-KPI des Reglers kontinuierlich zu überwachen und eine Nachtrainingsbewertung auszulösen, wenn er unter eine akzeptable Schwelle fällt. Intervalle in bestätigten Deployments reichen von Monaten (langsam driftende Dauerprozesse) bis zu ereignisgesteuerten Bewertungen nach wesentlichen Anlagenveränderungen.

Online-Lernen — das kontinuierliche Aktualisieren von Modellgewichten aus Live-Produktionsdaten — ist für zertifizierte Produktionssysteme generell nicht praktikabel. Unkontrollierte Gewichtsupdates können nicht vor ihrer Wirksamkeit validiert werden, was im Widerspruch zu Prozesssicherheits- und Qualitätsmanagementanforderungen steht. Offline-Nachtraining mit Validierung ist die aktuelle Best Practice für Produktions-Deployments.

Das Nachtrainings-Verfahren folgt denselben Schritten wie das ursprüngliche Deployment, aber schneller, weil die Infrastruktur bereits vorhanden ist: neue Historian-Daten sammeln → offline neu trainieren → in der Simulation validieren → betreuter Inbetriebnahmetest an der realen Anlage → nach Erfüllung der Kriterien in Produktion übernehmen.

Change Management. Jede Änderung an einem deployeten KNN-Regler — neue Trainingsdaten, geänderte Zielfunktion, andere Architektur — stellt eine Softwareänderung dar und muss das Management-of-Change-Verfahren (MoC) des Standorts durchlaufen, mit Dokumentation und erneuter Genehmigung. Für einen DCS-Ingenieur ist dies der normale Änderungsprozess. Für einen ML-Ingenieur, der kontinuierliches Deployment bei Web-Services gewohnt ist, ist es eine erhebliche betriebliche Einschränkung, die vor dem Deployment eingeplant werden muss.


Warum manche Sektoren führen und andere hinterherhinken

FaktorErdölraffinerieGebäude-HLKChemieanlagenZement / Chargenchemie
Reward in Echtzeit messbar?Ja — $/Barrel, Ausbeute aus DCSJa — kWh vom ZählerJa — Temp., pH, VerhältnisOft nein — Qualität aus Labor, Stunden später
Kosten einer schlechten EntscheidungVerlorene Marge (reversibel)Leichtes Unbehagen (reversibel)Anlagenschaden / SIS-Trip (hoch)Chargenverlust, Ofenabschaltung (hoch)
RegelungszeitskalaMinuten5–60 MinutenMinutenMinuten bis Stunden
Historian-QualitätStark — Standard in RaffinerienStark — BMS-StandardVariabelOft schwach
ErgebnisPortfolio-weites kommerzielles DeploymentBreiteste akademische DeploymentbasisSchmal aber bestätigtNicht in bestätigter Liste

Zement, Chargenchemie und Halbleiterfertigung fehlen aus einem dominanten Grund: Das Reward-Signal ist nicht in Echtzeit berechenbar. Das ist ein Daten- und Instrumentierungsproblem, kein Algorithmus-Problem.


Das Fazit

Der Großteil dessen, was als „industrielle KI” verkauft wird, ist keine KNN-Regelung. Es sind Predictive Maintenance, Digital Twins, Soft Sensors und Scheduling-Optimierung — alles nützlich, nichts davon ein geschlossener Regelkreis.

KNN-Regler, bestätigt im realen Produktionseinsatz:

  • Erdölraffinerie — Portfolio-Maßstab kommerziell, dokumentierter ROI in USD/Barrel[2][3]
  • Chemische und Bioprozessanlagen — schmal aber bestätigt; erfordert Offline- oder modellbasiertes RL[4][5][6][7][8]
  • Gebäudeenergiesysteme — breiteste akademische Deploymentbasis[9][10][11][12]
  • Rechenzentrumskühlung — kontinuierlicher KI-gesteuerter Betrieb seit 2018[13][14][15]

Wenn Sie einen kontinuierlichen Prozess mit einem in Echtzeit messbaren Ziel, einem Anlagenhistorian und einem DCS betreiben, das Supervisory-Sollwerte akzeptiert — und Ihre aktuelle Regelungsstrategie messbare Leistung auf dem Tisch lässt — ist die Technologie bereit. Die Einschränkung ist nicht mehr algorithmisch. Sie liegt in der Engineering-Umsetzung.


Dr. Rafał Noga ist spezialisiert auf modellbasierte prädiktive und lernbasierte Regelung für Industriesysteme. Wenn Sie beurteilen möchten, ob KNN- oder modellprädiktive Regelung der richtige nächste Schritt für Ihren Prozess ist, ist das kostenlose Diagnostikgespräch der richtige Einstieg.


Weiterführende Artikel

KNN- oder MPC-Regelung — die richtige Wahl für Ihren Prozess?

Eine klare Antwort gibt es im kostenlosen 30-minütigen Diagnostikgespräch.

Kostenloses Gespräch buchen →

Referenzen

1. Alginahi, Y.M., Sabri, O., Said, W. (2025). Reinforcement Learning for Industrial Automation: A Comprehensive Review of Adaptive Control and Decision-Making in Smart Factories. Machines, 13(12), 1140. https://doi.org/10.3390/machines13121140

2. Imubit (2024). Imubit Launches Closed-Loop AI Optimization Solution Powered by Reinforcement Learning. Hydrocarbon Processing, September 2024. https://www.hydrocarbonprocessing.com/news/2024/09/imubit-launches-closed-loop-ai-optimization-solution-powered-by-reinforcement-learning/

3. Imubit (2024). The Process Industry’s First Reinforcement Learning-Powered Closed-Loop AI Optimization. https://imubit.com/blog/the-process-industrys-first-reinforcement-learning-powered-closed-loop-ai-optimization/

4. Yokogawa Electric Corporation (2022). Yokogawa and JSR Achieve World-First Adoption of AI Autonomous Control in Chemical Plant. Press release, March 22, 2022. https://www.yokogawa.com/us/news/press-releases/2022/2022-03-22/

5. Yokogawa Electric Corporation (2023). ENEOS Materials and Yokogawa Achieve First Successful Autonomous Control of a Chemical Plant Using Reinforcement Learning AI. Press release, March 30, 2023. https://www.yokogawa.com/us/news/press-releases/2023/2023-03-30/

6. Blum, F. et al. (2021). Investigation of a Model-Based Deep Reinforcement Learning Controller Applied to an Air Separation Unit in a Production Environment. Chemie Ingenieur Technik. https://doi.org/10.1002/cite.202100094

7. Park, J., Choi, W., Kim, D., Park, H.E., Lee, J.M. (2025). Real-World Implementation of Offline Reinforcement Learning for Process Control in Industrial Dividing Wall Column. SSRN preprint. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5253477

8. Gil, J.D., del Rio Chanona, E.A., Guzmán, J.L., Berenguel, M. (2025). Reinforcement learning meets bioprocess control through behaviour cloning: Real-world deployment in an industrial photobioreactor. Engineering Applications of Artificial Intelligence. https://arxiv.org/abs/2509.06853

9. Moshari, A., Javanroodi, K., Nik, V.M. (2026). Real-world deployment of model-free reinforcement learning for energy control in district heating systems. Applied Energy, 402. https://doi.org/10.1016/j.apenergy.2025.126997

10. Silvestri, A., Coraci, D., Brandi, S., Capozzoli, A., Borkowski, E., Köhler, J., Wu, D., Zeilinger, M.N., Schlueter, A. (2024). Real building implementation of a deep reinforcement learning controller to enhance energy efficiency and indoor temperature control. Applied Energy, 368, 123447. https://doi.org/10.1016/j.apenergy.2024.123447

11. Coraci, D., Silvestri, A., Razzano, G., Fop, D., Brandi, S., Borkowski, E., Hong, T., Schlueter, A., Capozzoli, A. (2025). A scalable approach for real-world implementation of deep reinforcement learning controllers in buildings based on online transfer learning: The HiLo case study. Energy and Buildings, 329, 115254. https://doi.org/10.1016/j.enbuild.2024.115254

12. Silvestri, A., Coraci, D., Brandi, S., Capozzoli, A., Borkowski, E., Köhler, J., Wu, D., Zeilinger, M.N. (2025). Practical deployment of reinforcement learning for building controls using an imitation learning approach. Energy and Buildings, 335. https://www.sciencedirect.com/science/article/pii/S0378778825002415

13. DeepMind (2016). DeepMind AI reduces Google data centre cooling bill by 40%. https://deepmind.google/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-by-40/

14. DeepMind (2018). Safety-first AI for autonomous data centre cooling and industrial control. https://deepmind.google/blog/safety-first-ai-for-autonomous-data-centre-cooling-and-industrial-control/

15. Luo, J. et al. (2022). Controlling Commercial Cooling Systems Using Reinforcement Learning. arXiv:2211.07357. https://arxiv.org/abs/2211.07357

16. Dulac-Arnold, G., Levine, N., Mankowitz, D.J., Li, J., Paduraru, C., Gowal, S., Hester, T. (2021). Challenges of Real-World Reinforcement Learning: Definitions, Benchmarks and Analysis. Machine Learning, 110, 2419–2468. https://doi.org/10.1007/s10994-021-05961-4

17. Levine, S., Kumar, A., Tucker, G., Fu, J. (2020). Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. arXiv:2005.01643. https://arxiv.org/abs/2005.01643

18. García, J., Fernández, F. (2015). A Comprehensive Survey on Safe Reinforcement Learning. Journal of Machine Learning Research, 16(1), 1437–1480. https://jmlr.org/papers/v16/garcia15a.html

Have a project or a question?

Contact Dr. Noga →