技术

用于楼宇控制的 Reinforcement Learning

HVAC 适合 reinforcement learning,是因为楼宇系统动态复杂、响应滞后,而且不能直接在真实设备和真实舒适度上随意试错。Digital twin 给模型提供了一个可以在大量训练场景里反复尝试的空间。

真正的技术难点不是“用了强化学习”这个词,而是围绕它建立训练闭环:楼宇数据、物理约束、仿真、重复试验、大量运行场景,以及可度量证据。

Digital twin 的作用

Digital twin 到底让什么变得可行

Twin 不是楼宇的完美复制品。它是一个受控的训练和筛选环境,让团队在不同运行场景下反复测试同一套决策逻辑。

真实楼宇不应该成为 AI 控制器第一次探索新行为的地方;重复学习先发生在仿真里。

Digital twin 不需要完美预测每一小时才有价值;它需要足够表达运行边界、主导约束和主要失败模式,用来筛掉不安全或不现实的动作。

Policy 的改进来自大量场景:正常运行、高温、温和天气、低负荷、早晨启动和异常日程。

训练闭环

Digital twin 和 RL training loop

最核心的部分是两个闭环配合:digital twin 反复跑仿真场景,RL loop 把状态输入转成动作,从仿真响应里读取 reward,再更新候选 policy。

Rendering training flow diagram...

为什么用 RL

为什么 reinforcement learning 适合 HVAC

HVAC 控制是连续决策:一个动作影响的不是下一分钟,而是接下来几个小时。RL 的价值在于可以从重复仿真经验中学习,而不是孤立优化单个时间点。

能处理滞后效果

预冷、机组 staging 和 reset 策略往往要过一段时间才体现收益。RL 可以评估整段序列,而不只看即时响应。

能比较大量动作

Trainer 可以在成千上万的仿真场景里尝试不同选择,并保留跨条件稳定有效的模式。

学到的是 policy,不是单一日程

输出是会根据天气、负荷、occupancy 和设备状态变化的候选 policy,而不是固定 schedule。

训练流程

RL training 如何变成楼宇控制

这个闭环本质上很朴素:收集运行证据,在仿真里训练,拒绝不现实行为,比较大量场景,再用结果改进候选 policy。

01

建立运行图景

我们先从 BAS 趋势、设备上下文、天气、日程和客户约束出发,把优化问题固定在真实现场里。

  • 01确认本轮覆盖的机房、空侧系统、设定点、计量和控制点。
  • 02在训练或评估前,区分数据缺口和真实运行行为。
  • 03在任何控制建议进入评估前,明确舒适度、安全和运维约束。
  • 04确认哪些候选动作足够有意义,应该进入仿真。

02

在有边界的 digital twin 中重复训练

仿真环境为学习系统提供可重复的搜索空间,用来测试不同负荷、天气和运行条件下的候选动作。

  • 01在成千上万的训练场景中重复这个闭环。
  • 02拒绝违反物理边界、舒适度或现场规则的动作。
  • 03把 twin 当作决策筛选器,而不是声称它能完美预测未来每一小时。
  • 04覆盖正常运行、高温、温和天气、低负荷、早晨启动和异常日程。
  • 05当候选 policy 在多类场景中稳定表现时,继续保留和改进。

03

比较候选行为

训练出的策略只有在大量仿真场景中表现可解释、可信,才有继续迭代的意义。

  • 01把候选行为与基线运行和已知控制序列对比。
  • 02检查节能判断在天气、负荷和日程变化下是否仍然可信。
  • 03保留可读证据,用于审查、M&V 和下一轮迭代。

04

用证据改进 policy

有价值的结果不是某一个聪明动作,而是一套经过大量情境训练、并通过反馈持续改进的候选 policy。

  • 01保留能降低能耗、同时尊重舒适度和设备行为的模式。
  • 02丢弃只在极窄场景里有效的脆弱策略。
  • 03用度量结果决定下一批训练场景应该强调什么。

现实问题

壁垒不在 model 名字,而在控制闭环。

Reinforcement learning 是公开方法。真正的价值在于用真实约束和大量场景反复训练,并用可度量结果改进。

仿真是验证场

Digital twin 通过大量仿真运行场景,帮助发现有希望的动作,也排除明显错误的动作。

安全是架构的一部分

舒适度、设备和现场约束属于训练边界的一部分,而不是最后再包一层。

度量负责闭环

现场结果决定策略是被接受、调整,还是回滚。目标是可度量的运行表现,不是一次漂亮的训练结果。

训练标准

一个 policy 被信任前,必须先满足什么

ClimaMind 把 RL 当作重复产生证据的训练流程,而不是实验室 demo。

  • 01

    运行边界是显式的。

  • 02

    舒适度、安全和设备边界是显式的。

  • 03

    离线评估覆盖预期运行条件,并显示可信行为。

  • 04

    Policy 已经在大量真实感场景中测试过。

  • 05

    结果能用人能读懂的证据解释。