本文受 决策实验室 的 达米安·洛佩兹 发布在Medium上的文章 «谁想弄清楚如何打包?» 启发撰写。
三维装箱问题(3D- BPP)是仓储物流中最常见的问题之一。典型的装箱问题要求把一定数量的货物放入容量相同的一些箱子(或托盘)中,使得每个箱子中的货物大小之和不超过箱子容量并使所用的箱子数目最少。
如果我告诉你,在你收拾行李上大学之前,你就已经开始解决装箱打包问题了呢?还记得著名的俄罗斯方块游戏吗?这是一个在时间压力下使用空间的伟大练习。
还记得当你要搬到一个新地方或要去度假时需要收拾行李的感觉吗?在这两种情况下,你的箱子或行李箱里的闲余空间越多,你需要的箱子或行李箱就越多。
少量的箱子或行李箱,你可以依靠直觉和经验(就像我们通常做的那样),但如果有几十几百个呢?在物流方面,直觉和人为的错误计算可能会为额外的托盘或卡车支付高昂的费用——这对公司来说是一笔巨大的开支。
因此, 决策实验室 决定测试三种基于计算机的打包技术,数学优化、 强化学习, 和基于规则的算法,以确定最有效的一种。
优化算法
对于数学优化,决策实验室指定了目标函数和约束条件,并使用数学优化器来寻找解决方案。该公司将目标函数设定为最小化集装箱空闲空间,这也减少了所需集装箱数量。
强化学习与仿真
强化学习 是一种机器学习方法,在这种方法中,当前状态下做出的决策将影响下一状态下的决策。它适用于上下联系紧密的场景。它不同于数学优化,在数学优化中,最优解不考虑上下联系。
在任何强化学习场景中,你都需要一个 状态、 一个 动作 和 一个 奖励函数。
RL智能体学习在给定状态下采取的最佳行动是什么。当它接收到有关环境(状态)的信息时,采取行动。根据这个行为对环境的影响,智能体会得到或积极或消极的奖励。这个过程要重复无数次,以最大化奖励值。
为了训练RL智能体,决策实验室使用了 Microsoft Bonsai。 Bonsai与AnyLogic集成得很好,可以帮助没有人工智能背景的仿真和行业专家在他们的项目中构建、训练和部署强化学习智能体。

为了解决装箱问题,该公司开发了一个模型仿真将货物运送到装载区的输送带。决策实验室将该模型与Bonsai平台集成,并使用它来训练RL智能体以最有效的方式装载货物。
RL遵循的一项政策是,输送带上的货物到达装载区时进行处理,并在RL智能体转向下一个货物之前放入集装箱。此外,决策实验室允许智能体提前看到货物,这样它就可以做一些有限的计划。
因此,这比数学优化方法更具挑战性,因为数学优化方法对所有要打包的货物都有完整的了解 — — 我们的强化学习智能体只看到货物随机序列中前面的一个。

当所有设置完成后,决策实验室进行实验,将优化算法和强化学习算法与已建立的基于规则的算法进行比较。研究结果有助于确定在有限的时间内装载一系列货物时,哪种策略的密度最高。
在这篇文章中,我们已经介绍了三分之二的基于计算机的策略。观看视频,了解他们中哪一个被证明是最成功的。项目详情及对比结果:
在学习了该项目的结果后,您将知道如何通过将获胜策略与俄罗斯方块和度假打包体验相结合来解决装箱问题。
欲了解更多仿真建模新闻和见解, 请订阅我们的月度资讯。