Sieci neuronowe w sterowaniu przemysłowym: Ile jest ich naprawdę w użyciu?

Opublikowano 23 marca 2026 przez Dr. Rafał Noga

Neural NetworksReinforcement LearningAPCProcess ControlIndustrial AIDeep RL

Wszyscy mówią o rewolucji przemysłowej AI. Dostawcy obiecują zakłady sterowane przez AI, autonomiczne procesy, samooptyymalizujące się fabryki. Pytanie, które warto zadać — i które rzadko jest zadawane wystarczająco precyzyjnie — brzmi: ile z tego to faktycznie regulator sieci neuronowej działający w zamkniętej pętli na rzeczywistych aktywach produkcyjnych?

Uczciwa odpowiedź brzmi: bardzo mało. Przepaść między tym, co jest sprzedawane jako „przemysłowa AI”, a tym, co faktycznie działa jako regulator sieci neuronowej, jest znacząca — i zrozumienie tej przepaści jest bardziej wartościowe niż akceptowanie narracji marketingowej.

Przegląd z 2025 roku obejmujący 672 badania z dziedziny automatyki przemysłowej wykazał, że tylko 22% opublikowanych badań nad regulatorami sieci neuronowych zawierało implementacje w świecie rzeczywistym — stanowiska laboratoryjne, instalacje pilotażowe i systemy produkcyjne łącznie. Pozostałe 78% nigdy nie opuściło symulacji.^[1] Spośród tych rzeczywistych implementacji, zdecydowana większość to konfiguracje badawcze: uczelniane stanowiska testowe, małoskalowe piloty, demonstracje proof-of-concept. Potwierdzone wdrożenia na rzeczywistych przemysłowych systemach produkcyjnych — z udokumentowanymi wynikami ilościowymi — wynoszą dziesięć.

Gdzie naprawdę mieszka „przemysłowa AI”

Kiedy praktycy i dostawcy używają wyrażenia „przemysłowa AI”, zazwyczaj mają na myśli jedną z kilku różnych rzeczy. Tylko jedna z nich to regulator sieci neuronowej działający w zamkniętej pętli w zakładzie produkcyjnym.

Pytanie zadawane jest z nową pilnością, ponieważ obecna fala AI jest napędzana przez duże modele językowe — GPT, Gemini, Claude. LLM-y to sieci neuronowe, a ich spektakularny wpływ na przetwarzanie tekstu skłonił każdą branżę do pytania: czy ta sama technologia może nas zrewolucjonizować? W sterowaniu procesami odpowiedź wymaga rozróżnienia między tym, co robią LLM-y, a tym, co musi robić system sterowania. LLM-y to systemy dopasowywania wzorców trenowane na statycznych korpusach tekstowych. Regulator procesu musi zamknąć pętlę sprzężenia zwrotnego w czasie rzeczywistym, respektować twarde ograniczenia fizyczne i pozostawać stabilnym pod wpływem zakłóceń — to fundamentalnie inny problem. Odpowiednia architektura sieci neuronowej dla sterowania to nie transformer, lecz sieć polityk trenowana przez uczenie przez wzmocnienie. A inne narzędzia nazywane „przemysłową AI” — MPC, soft sensory, cyfrowe bliźniaki, optymalizacja harmonogramowania — istniały na długo przed erą LLM. Nie stały się użyteczne dzięki GPT.

Jak to się nazywa	Czym to naprawdę jest	Zamyka pętlę?
Predictive maintenance	Wykrywanie anomalii na podstawie drgań, temperatury, prądu	Nie — tylko doradcze
Cyfrowy bliźniak	Offline’owy model symulacyjny do planowania lub treningu	Nie
Soft sensor / wirtualny czujnik	Model regresji szacujący niemierzalne zmienne jakościowe	Czasem — rola nadzorcza
Optymalizacja procesów	Harmonogramowanie LP/MILP, planowanie wsadów, nie w czasie rzeczywistym	Nie
APC / MPC	Liniowe predykcyjne sterowanie modelem — technologia stosowana od lat 80.	Tak — ale to nie jest sieć neuronowa
Regulator SN	O co chodzi w hype’ie	Rzadkość — patrz poniżej

Zaawansowane sterowanie procesami z liniowym MPC jest stosowane w przemyśle od czterdziestu lat. Jest wbudowane w platformy DCS wszystkich głównych dostawców i jest standardową praktyką w rafinacji, petrochemii i produkcji polimerów. Kiedy zakład twierdzi, że ma „optymalizację napędzaną AI”, często chodzi o MPC zainstalowany w latach 90. Kiedy dostawca systemów zarządzania budynkami twierdzi, że ma „zarządzanie energią AI”, często chodzi o oparty na regułach planer, który został przemianowany.

Nic z tego nie jest nieuczciwe — to użyteczne narzędzia. Ale nie to oznacza „regulator sieci neuronowej”, a ich zrównywanie zawyża pozorną dojrzałość sterowania opartego na SN.

Potwierdzona liczba

Po wyczerpującym przeglądzie dostępnych źródeł, liczba potwierdzonych regulatorów sieci neuronowych lub uczenia przez wzmocnienie działających w zamkniętej pętli na rzeczywistych przemysłowych systemach produkcyjnych — z udokumentowanymi wynikami ilościowymi i weryfikowalnymi źródłami — wynosi dziesięć.

Reaktory tokamak, stanowiska uczelniane oraz prace walidujące algorytmy na historycznych danych przemysłowych są wykluczone. Są to przypadki, w których regulator jest potwierdzony jako działający w zamkniętej pętli na rzeczywistym aktywu produkcyjnym.

Dziesięć potwierdzonych wdrożeń

1. Rafinacja ropy naftowej — Imubit, USA

Imubit wdrożył predyktor SN połączony z regulatorem optymalizacyjnym trenowanym przez RL w ponad 90 aplikacjach na żywo w zakładach przemysłowych, z klientami obejmującymi 7 z 10 największych rafinerii USA — w tym Marathon Petroleum, HF Sinclair i Citgo.^[2] Firma uruchomiła dedykowany produkt RL we wrześniu 2024.^[3]

Udokumentowane wyniki: poprawa marży o 0,30–0,50 USD na baryłkę w operacjach rafineryjnych; do 30% redukcji gazu ziemnego w operacjach pieców obrotowych.^[2]

2. Destylacja chemiczna — JSR / Yokogawa, Japonia

W styczniu–lutym 2022 roku regulator RL FKDPP firmy Yokogawa działał przez 840 kolejnych godzin (35 dni) w pełni autonomicznym sterowaniu zamkniętą pętlą kolumny destylacyjnej w zakładzie produkcyjnym JSR — udokumentowane jako światowe pierwsze bezpośrednie sterowanie RL zmienną w zakładzie chemicznym.^[4] Po rocznym rozszerzonym próbnym użytkowaniu, ENEOS Materials formalnie przyjął system do produkcji w marcu 2023.^[5]

3. Jednostka rozdziału powietrza, 2021

Blum i in. opisują głęboki regulator RL oparty na modelu działający w produkcyjnej jednostce rozdziału powietrza, porównany bezpośrednio z poprzednim liniowym systemem MPC.^[6]

4. Przemysłowa kolumna z ścianą dzielącą, 2025

Park i in. opisują offline RL do sterowania temperaturą przemysłowej kolumny z ścianą dzielącą, osiągając współczynnik automatyzacji 93,11% w porównaniu z ręczną obsługą.^[7] Polityka była trenowana na zarejestrowanych danych historycznych — bez eksploracji na żywej instalacji.

5. Przemysłowy fotobioreaktor, 2025

Gil i in. opisują RL z klonowaniem zachowania wdrożony w przemysłowym fotobioreaktorze do regulacji pH, z ośmiodniowym ciągłym działaniem w zmiennych warunkach środowiskowych.^[8]

6. Ogrzewanie miejskie — 13 budynków, 2026

Moshari i in. opisują bezmodelowy RL zarządzający ogrzewaniem miejskim w 13 rzeczywistych budynkach przez 138 dni zimowych: 29,7% redukcji energii grzewczej w porównaniu z historycznymi wartościami bazowymi, bez modernizacji sprzętu.^[9]

7. HVAC biurowy / TABS — regulator SAC, 2024

Silvestri i in. opisują regulator Soft Actor-Critic w rzeczywistym budynku biurowym przez dwumiesięczny sezon chłodzenia: 68% mniej naruszeń komfortu temperaturowego bez wzrostu zużycia energii.^[10]

8. HVAC biurowy — transfer learning, 2025

Coraci i in. opisują regulator DRL zaadaptowany z jednego budynku do drugiego za pomocą online transfer learningu (studium przypadku HiLo), demonstrując wdrożenie na wielu obiektach bez trenowania od podstaw.^[11]

9. HVAC biurowy — uczenie przez imitację, 2025

Silvestri i in. opisują regulator DRL wspomagany uczeniem przez imitację w systemie TABS, gdzie inicjalizacja polityki z operacji eksperckiej zmniejszyła ryzykowne zachowanie we wczesnej fazie wdrożenia.^[12]

10. Chłodzenie centrum danych — Google DeepMind, światowe

W 2016 roku DeepMind zademonstrował 40% redukcję energii chłodzenia (15% całkowitej redukcji PUE) przy użyciu systemu doradczego AI.^[13] W 2018 roku system został zmodernizowany do bezpośredniego sterowania AI siłownikami chłodzenia, dostarczając trwałe ~30% oszczędności energii chłodzenia pod nadzorem operatorów.^[14] W 2022 roku Trane Technologies zastosował to samo podejście w dwóch komercyjnych (nie-Google) budynkach, raportując 9% i 13% oszczędności energii w tych eksperymentach na żywo.^[15]

Dlaczego liczba nie jest większa?

Dziesięć potwierdzonych wdrożeń w całej globalnej bazie przemysłowej to mała liczba. Mała nie dlatego, że technologia nie działa — potwierdzone przypadki dowodzą, że działa —, ale dlatego, że musi być spełniony określony zestaw warunków wstępnych, których większość zakładów jeszcze nie spełnia.

Dominujące powody:

Problem sygnału nagrody. Regulatory RL uczą się optymalizując funkcję nagrody. Jeśli wielkość, którą chcemy zoptymalizować, nie może być mierzona w czasie rzeczywistym z istniejącej aparatury, nie ma nagrody do obliczenia. Jakość klinkieru cementowego wymaga pobierania próbek z pieca i analizy laboratoryjnej — godziny po podjęciu decyzji sterującej. CD półprzewodników jest mierzone przez narzędzia metrologiczne z wielogodzinnymi kolejkami. Jakość produktu wsadowego jest znana dopiero na końcu wsadu.^[16]

Problem eksploracji. Bezmodelowy online RL wymaga, aby agent podejmował działania eksploracyjne — próbował rzeczy, których jeszcze nie próbował. Na rzeczywistym aktywu produkcyjnym działania eksploracyjne naruszające ograniczenia operacyjne mogą powodować uszkodzenia sprzętu, incydenty bezpieczeństwa lub straty produktu. Jest to rozwiązywalne przez offline RL lub RL oparty na modelu, ale dodaje znaczący nakład inżynieryjny.^[18]

MPC już dobrze działa. Dla dużej części przemysłowych problemów sterowania, dobrze uruchomiony liniowy MPC już obsługuje ograniczenia i cele ekonomiczne z wysoką interpretowalnością i ustalonymi ścieżkami certyfikacji. Przypadek biznesowy dla sterowania SN musi być porównywany z MPC najlepszej klasy, nie z kiepsko nastrojonym regulatorem PID.^[1]

Zaufanie operatorów. Regulatory SN nie produkują interpretowalnych wyjaśnień swoich decyzji. Dla operatorów pracujących z MPC — gdzie funkcja kosztu jest jawna, a przewidywana trajektoria widoczna — ta nieprzejrzystość jest realną barierą. Wszystkie potwierdzone wdrożenia poradziły sobie z tym poprzez długie okresy próbne, jawne tryby awaryjne i trwałe angażowanie operatorów.

Tabela ROI z potwierdzonych przypadków

Sektor	Raportowana korzyść	Podstawa
Rafinacja ropy	Poprawa marży 0,30–0,50 USD/baryłkę	Imubit, 90+ aplikacji na żywo^[2]
Destylacja chemiczna	93,11% współczynnik automatyzacji vs ręczny	Park i in., przemysłowa DWC^[7]
HVAC budynkowy	29,7% redukcja energii grzewczej	Moshari i in., 13 budynków^[9]
HVAC budynkowy	68% mniej naruszeń komfortu	Silvestri i in., budynek biurowy^[10]
Chłodzenie centrum danych	~30% redukcja energii chłodzenia (autonomicznie)	DeepMind, DC Google^[14]
Operacje pieca obrotowego	Do 30% redukcji gazu ziemnego	Imubit^[2]

Czy jesteś dobrym kandydatem?

Masz mierzalny cel, który już jest w twoim historianie. Każde potwierdzone wdrożenie optymalizuje metrykę — marżę w dolarach na baryłkę, zużyte kWh, współczynnik automatyzacji, odchylenie pH — obliczalną w czasie rzeczywistym z istniejącej aparatury.

Twój proces ma nieliniowe interakcje, które twoja obecna strategia sterowania obsługuje konserwatywnie. Regulatory SN uzasadniają swój koszt w sytuacjach, gdzie relacja między wejściami i wyjściami jest nieliniowa, wiele zmiennych wchodzi w interakcje, a obecne podejście pozostawia wydajność na stole.

Masz co najmniej 6–12 miesięcy ciągłych danych historiana przy częstotliwościach próbkowania 5 minut lub szybszych. Offline RL i RL oparty na modelu wymagają substancjalnych zarejestrowanych danych.^[7]

Twój DCS lub BMS może otrzymywać zewnętrzne zadania wartości zadanych. Wszystkie dziesięć potwierdzonych wdrożeń działa w roli nadzorczej: regulator SN wysyła wartości zadane do istniejącej warstwy regulacyjnej.

Koszt suboptymalnej decyzji jest ograniczony i odwracalny. W rafinacji ropy suboptymalne zadanie FCC kosztuje marżę — niepożądane, ale odwracalne. W budynku złe zadanie ogrzewania powoduje lekki dyskomfort przez godzinę.

Wymagania techniczne

Historean z wystarczającym zasięgiem i częstotliwością próbkowania. Minimum to zazwyczaj 6–12 miesięcy danych obejmujących wiele warunków operacyjnych.

Sformalizowana funkcja celu. Musisz móc napisać matematyczny wyraz tego, co oznacza „lepsze sterowanie”, używając zmiennych już w historianie.

Zwalidowany model procesu lub gotowość do jego wytrenowania. Dla procesów z ograniczeniami bezpieczeństwa potwierdzoną strategią wdrożenia jest RL oparty na modelu: trenuj politykę w zwalidowanym symulatorze, następnie przenieś na rzeczywistą instalację.

Możliwość integracji DCS/BMS. Standardowy wzorzec integracji: regulator SN odczytuje znaczniki z historiana lub serwera OPC-UA i zapisuje zadania wartości zadanych z powrotem do DCS.

Runtime inferencji dla modelu SN. Wytrenowana polityka działa na serwerze brzegowym lub komputerze procesowym — nie w samym sterowniku PLC. Standardowym formatem eksportu jest ONNX (przenośny między frameworkami treningowymi), obsługiwany przez ONNX Runtime dla inferencji CPU lub TensorRT dla inferencji akcelerowanej GPU. Dla użytkowników Siemens S7-1500 rozszerzenie AI Inference Server obsługuje modele ONNX bezpośrednio; rozszerzenie Beckhoff TwinCAT Machine Learning zapewnia tę samą funkcjonalność w systemach TwinCAT 3. MATLAB Deep Learning Toolbox z Simulinkiem generuje kod do wdrożenia bezpośrednio z wytrenowanych sieci. Dla pętli regulacji procesowych z czasami cyklu rzędu minut standardowa inferencja CPU jest więcej niż wystarczająca. Szybkie pętle regulacyjne — ruch maszyn (cykl 1–10 ms), szybka temperatura lub ciśnienie reaktora (dynamika w skali sekund) — wymagają walidacji latencji inferencji przed wyborem architektury modelu.

Protokół akceptacji operatora. Każde potwierdzone wdrożenie zawiera mechanizm pozwalający operatorom wyjść ze sterowania AI. Wdrożenie JSR/Yokogawa wyraźnie angażowało operatorów przez cały okres próbny.^[4]

Utrzymanie modelu po wdrożeniu

Wdrożony regulator SN nie jest systemem typu „skonfiguruj i zapomnij”. Procesy przemysłowe dryfują — skład surowców się zmienia, urządzenia starzeją się, cele operacyjne przesuwają się — a polityka wytrenowana na danych historycznych będzie tracić wydajność z czasem, jeśli nie jest utrzymywana.

Częstotliwość doszkalania zależy od szybkości dryfowania procesu. Praktycznym podejściem jest ciągłe monitorowanie KPI wydajności regulatora i uruchamianie przeglądu doszkalania, gdy spada poniżej akceptowalnego progu. Interwały w potwierdzonych wdrożeniach wahają się od miesięcy (wolno dryfujące procesy ciągłe) do przeglądów sterowanych zdarzeniami po istotnych zmianach w zakładzie.

Uczenie online — ciągła aktualizacja wag modelu z danych produkcji na żywo — jest generalnie niewykonalne dla certyfikowanych systemów produkcyjnych. Niekontrolowane aktualizacje wag nie mogą być walidowane przed ich wejściem w życie, co jest sprzeczne z wymaganiami bezpieczeństwa procesowego i zarządzania jakością. Doszkalanie offline z walidacją jest aktualną najlepszą praktyką dla wdrożeń produkcyjnych.

Procedura doszkalania przebiega takimi samymi krokami jak oryginalne wdrożenie, ale szybciej, ponieważ infrastruktura jest już na miejscu: zebrać nowe dane z historiana → dotrenować offline → zwalidować w symulacji → nadzorowany próbny rozruch na rzeczywistej instalacji → po spełnieniu kryteriów przenieść do produkcji.

Zarządzanie zmianami. Każda modyfikacja wdrożonego regulatora SN — nowe dane treningowe, zmieniona funkcja celu, inna architektura — stanowi zmianę oprogramowania i musi przejść przez procedurę zarządzania zmianami (MoC) zakładu, z dokumentacją i ponownym zatwierdzeniem. Dla inżyniera DCS jest to normalny proces zmiany sterowania procesem. Dla inżyniera ML przyzwyczajonego do ciągłego wdrażania w usługach webowych jest to istotne ograniczenie operacyjne, które należy zaplanować przed wdrożeniem.

Dlaczego niektóre sektory wiodą, a inne pozostają w tyle

Czynnik	Rafinacja ropy	HVAC budynkowy	Zakłady chemiczne	Cement / chemia wsadowa
Nagroda mierzalna w czasie rzeczywistym?	Tak — $/baryłkę, wydajność z DCS	Tak — kWh z licznika	Tak — temp., pH, stosunek	Często nie — jakość z laboratorium, godziny później
Koszt złej decyzji	Stracona marża (odwracalne)	Lekki dyskomfort (odwracalne)	Uszkodzenie sprzętu / trip SIS (wysokie)	Strata wsadu, trip pieca (wysokie)
Skala czasowa sterowania	Minuty	5–60 minut	Minuty	Minuty do godzin
Jakość historiana	Silna — standard w rafineriach	Silna — standard BMS	Zmienna	Często słaba
Wynik	Portfolio-scale komercyjne wdrożenie	Najszersza akademicka baza wdrożeń	Wąskie ale potwierdzone	Nieobecne na potwierdzonej liście

Cement, chemia wsadowa i produkcja półprzewodników są nieobecne z jednego dominującego powodu: sygnał nagrody nie jest obliczalny w czasie rzeczywistym. To problem danych i aparatury, nie problem algorytmu.

Podsumowanie

Większość tego, co jest sprzedawane jako „przemysłowa AI”, to nie sterowanie sieciami neuronowymi. To predictive maintenance, cyfrowe bliźniaki, soft sensory i optymalizacja harmonogramowania — wszystko użyteczne, żadne z tego nie jest regulatorem zamkniętej pętli.

Regulatory sieci neuronowych potwierdzone w rzeczywistej eksploatacji produkcyjnej:

Rafinacja ropy naftowej — komercyjna skala portfolio, udokumentowany ROI w USD/baryłkę^[2][3]
Zakłady chemiczne i bioprocesowe — wąskie ale potwierdzone; wymaga offline lub opartego na modelu RL^{[4][5][6][7][8]}
Systemy energetyczne budynków — najszersza akademicka baza wdrożeń^{[9][10][11][12]}
Chłodzenie centrów danych — ciągła operacja sterowana AI od 2018^[13][14][15]

Jeśli eksploatujesz ciągły proces z mierzalnym w czasie rzeczywistym celem, historianem zakładu i DCS akceptującym nadzorcze wartości zadane — a twoja obecna strategia sterowania pozostawia mierzalną wydajność na stole — technologia jest gotowa. Ograniczenie nie jest już algorytmiczne. Leży w realizacji inżynieryjnej.

Dr Rafał Noga specjalizuje się w predykcyjnym sterowaniu opartym na modelu i sterowaniu opartym na uczeniu dla systemów przemysłowych. Jeśli chcesz ocenić, czy sterowanie SN lub MPC jest właściwym kolejnym krokiem dla twojego procesu, bezpłatna rozmowa diagnostyczna jest miejscem, gdzie ta rozmowa się zaczyna.

Czytaj dalej

Coś wydarzyło się z APC w sierpniu 2025 — Dane trendów wyszukiwania stojące za boomem przemysłowej AI w 2025 roku i co oznaczają dla inżynierów procesowych.
Wzorce projektowe MPC — Wielokrotnie używane architektury predykcyjnego sterowania udokumentowane dla wdrożeń przemysłowych.

Czy sterowanie SN lub MPC to właściwy wybór dla Twojego procesu?

Jasna odpowiedź w 30 minutach — bezpłatna rozmowa diagnostyczna.

Umów bezpłatną konsultację →

Referencje

1. Alginahi, Y.M., Sabri, O., Said, W. (2025). Reinforcement Learning for Industrial Automation: A Comprehensive Review of Adaptive Control and Decision-Making in Smart Factories. Machines, 13(12), 1140. https://doi.org/10.3390/machines13121140

2. Imubit (2024). Imubit Launches Closed-Loop AI Optimization Solution Powered by Reinforcement Learning. Hydrocarbon Processing, September 2024. https://www.hydrocarbonprocessing.com/news/2024/09/imubit-launches-closed-loop-ai-optimization-solution-powered-by-reinforcement-learning/

3. Imubit (2024). The Process Industry’s First Reinforcement Learning-Powered Closed-Loop AI Optimization. https://imubit.com/blog/the-process-industrys-first-reinforcement-learning-powered-closed-loop-ai-optimization/

4. Yokogawa Electric Corporation (2022). Yokogawa and JSR Achieve World-First Adoption of AI Autonomous Control in Chemical Plant. Press release, March 22, 2022. https://www.yokogawa.com/us/news/press-releases/2022/2022-03-22/

5. Yokogawa Electric Corporation (2023). ENEOS Materials and Yokogawa Achieve First Successful Autonomous Control of a Chemical Plant Using Reinforcement Learning AI. Press release, March 30, 2023. https://www.yokogawa.com/us/news/press-releases/2023/2023-03-30/

6. Blum, F. et al. (2021). Investigation of a Model-Based Deep Reinforcement Learning Controller Applied to an Air Separation Unit in a Production Environment. Chemie Ingenieur Technik. https://doi.org/10.1002/cite.202100094

7. Park, J., Choi, W., Kim, D., Park, H.E., Lee, J.M. (2025). Real-World Implementation of Offline Reinforcement Learning for Process Control in Industrial Dividing Wall Column. SSRN preprint. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5253477

8. Gil, J.D., del Rio Chanona, E.A., Guzmán, J.L., Berenguel, M. (2025). Reinforcement learning meets bioprocess control through behaviour cloning: Real-world deployment in an industrial photobioreactor. Engineering Applications of Artificial Intelligence. https://arxiv.org/abs/2509.06853

9. Moshari, A., Javanroodi, K., Nik, V.M. (2026). Real-world deployment of model-free reinforcement learning for energy control in district heating systems. Applied Energy, 402. https://doi.org/10.1016/j.apenergy.2025.126997

10. Silvestri, A., Coraci, D., Brandi, S., Capozzoli, A., Borkowski, E., Köhler, J., Wu, D., Zeilinger, M.N., Schlueter, A. (2024). Real building implementation of a deep reinforcement learning controller to enhance energy efficiency and indoor temperature control. Applied Energy, 368, 123447. https://doi.org/10.1016/j.apenergy.2024.123447

11. Coraci, D., Silvestri, A., Razzano, G., Fop, D., Brandi, S., Borkowski, E., Hong, T., Schlueter, A., Capozzoli, A. (2025). A scalable approach for real-world implementation of deep reinforcement learning controllers in buildings based on online transfer learning: The HiLo case study. Energy and Buildings, 329, 115254. https://doi.org/10.1016/j.enbuild.2024.115254

12. Silvestri, A., Coraci, D., Brandi, S., Capozzoli, A., Borkowski, E., Köhler, J., Wu, D., Zeilinger, M.N. (2025). Practical deployment of reinforcement learning for building controls using an imitation learning approach. Energy and Buildings, 335. https://www.sciencedirect.com/science/article/pii/S0378778825002415

13. DeepMind (2016). DeepMind AI reduces Google data centre cooling bill by 40%. https://deepmind.google/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-by-40/

14. DeepMind (2018). Safety-first AI for autonomous data centre cooling and industrial control. https://deepmind.google/blog/safety-first-ai-for-autonomous-data-centre-cooling-and-industrial-control/

15. Luo, J. et al. (2022). Controlling Commercial Cooling Systems Using Reinforcement Learning. arXiv:2211.07357. https://arxiv.org/abs/2211.07357

16. Dulac-Arnold, G., Levine, N., Mankowitz, D.J., Li, J., Paduraru, C., Gowal, S., Hester, T. (2021). Challenges of Real-World Reinforcement Learning: Definitions, Benchmarks and Analysis. Machine Learning, 110, 2419–2468. https://doi.org/10.1007/s10994-021-05961-4

17. Levine, S., Kumar, A., Tucker, G., Fu, J. (2020). Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems. arXiv:2005.01643. https://arxiv.org/abs/2005.01643

18. García, J., Fernández, F. (2015). A Comprehensive Survey on Safe Reinforcement Learning. Journal of Machine Learning Research, 16(1), 1437–1480. https://jmlr.org/papers/v16/garcia15a.html

Have a project or a question?

Contact Dr. Noga →