原网站入口 | OA系统

浙江大学神经管理学实验室学者在Management Science发表研究成果

发布时间:2023-06-01

|

来源:浙江大学神经管理学实验室

浏览:

近日,浙江省哲学社会科学试点实验室浙江大学神经管理学实验室副主任王小毅教授及其团队的研究成果“Deep Reinforcement Learning for Sequential Targeting”在管理学顶级国际期刊Management Science上发表。该研究创造性地将深度强化学习方法应用在优化定位营销策略上,证明了该方法在最大化企业长期收入方面的巨大潜力,能够在数字营销领域产生颠覆性的影响。

目标市场定位营销(Target Marketing)指企业识别和选择特定购买者群体作为目标市场,运用适当的市场营销组合满足其需要的过程。传统的定位营销策略往往只考虑与顾客进行一次性“买卖”,较为依赖前期策划和庞大的广告投放,忽略了时间因素对消费者行为的影响和促销活动的连续性,成本巨大且结果不确定。在数字化时代,企业的营销策略越来越依赖于与消费者的高频次互动和对于营销策略的快速调整。企业需要在多个周期内依次决定向谁发放优惠券、选择哪个促销活动以及决定两个活动之间的等待时长, 采用序贯性定位营销(Sequential Targeting)的方式连续地对消费者开展促销行为。与此同时,消费者的真实偏好也会随着时间的推移而快速改变。学术界和产业界都迫切需要一种随着不断变化的顾客行为而进行调整的适应性定位营销策略。

图1 企业常见的个性化序贯促销策略,如何针对顾客设计促销节奏以期长期效果最优

本研究在深度强化学习(Deep Reinforcement Learning,DRL)算法基础上,采用双流法(Two-Stream Computations)的竞争网络架构(Double-Dueling Network Architecture),基于量化的不确定性学习启发式方法来使DRL适应复杂的消费者行为维度,提出了针对消费者的个性化目标定位策略。这项策略首先使用连续价格促销来吸引顾客的即时注意力并锁定他们,并在每两次价格促销之间提供一个非促销期(即冷却期),并且随着时间的推移逐渐增加冷却期的长度,以便顾客调整其价格参考点。采用这种新算法能产生的长期收入比采用传统方法多26.75%,学习速度也比其他产业界常用算法模型快76.92%。此外,王小毅教授及团队还为训练和测试DRL算法构建了在线用户行为模拟器,为营销平台提供了一种节省成本的训练DRL方式,无需在现实世界中大量运行。综上所述,王小毅教授提出的深度强化学习方法被证明可以通过优化企业的序贯定位营销策略最大化企业的长期收入,能够解决当前企业实施序贯性定位营销策略所面临的三大挑战。首先,保证了营销活动影响企业收入的前瞻性,能够平衡企业的当前收入和未来收入。其次,使企业基于大数据的分析能够边探索学习边获得市场回报,最大化利润。最后,该方法具有高度的可扩展性,可以应对高维状态和营销政策空间。


(浙江大学神经管理学实验室 供稿)