Learning Multi-Agent Intention-Aware Communication for Optimal Multi-Order Execution in Finance 文章介绍

Achang
Jul 10, 2023

这篇文章的标题是”Learning Multi-Agent Intention-Aware Communication for Optimal Multi-Order Execution in Finance”。以下是对其主要方法的理解:

  1. 问题背景:在量化金融中,订单执行是一个基本任务,目标是完成特定资产的交易订单的购买或清算。最近,模型无关的强化学习(RL)为订单执行问题提供了一种数据驱动的解决方案。然而,现有的工作总是针对单个订单进行优化,忽视了多个订单同时执行的实践,导致了次优和偏差。
  2. 多智能体强化学习(MARL)方法:首先,文章提出了一种考虑实际约束的多订单执行的多智能体强化学习(MARL)方法。具体来说,我们将每个智能体视为一个独立的操作员来交易一个特定的订单,同时保持彼此的通信并协作以最大化总体利润。
  3. 改进的通信协议:然而,现有的MARL算法通常通过仅交换他们的部分观察信息来实现智能体之间的通信,这在复杂的金融市场中效率不高。为了改进协作,我们提出了一个可学习的多轮通信协议,让智能体之间可以交流预期的行动并相应地进行调整。这通过一种新的动作价值归因方法进行优化,这种方法与原始的学习目标一致,但效率更高。
  4. 实验结果:在两个真实世界市场的数据上的实验表明,我们的方法具有优越的性能,显著提高了协作效率。

总的来说,这篇文章提出了一种新的多智能体强化学习方法,通过引入可学习的多轮通信协议和新的动作价值归因方法,有效地解决了金融中的多订单执行问题。

Problem One: what is intention modeling?

The agents can know each other’s intention for the next action.

Problem 2: How to model multi-order excution as a MDP?

There are n agents, and each of them are charge of a single asset.

So how we design the action space?

It’s discreted extent is determined by experiments.

The paper define the action as follows:

at means proportion of the target order 𝑀𝑖.

Pay attention that we need to ensure the order Mi allocated for agent i should by excuted thoroughly. So we have

奖励如何设计呢?

第一、订单执行过程获得的奖励。

di代表的是买入或者卖出的方向。

第二、过大的订单会造成市场冲击成本。alpha 是一个超参数可以控制惩罚的程度。

第三、无论何时,如果在时间步 t钱被用完的时候,所有的智能体会得到惩罚。

最终每个智能体的奖励是三个奖励加起来,总奖励是 n 个智能体在一起的平均。

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Achang
Achang

No responses yet

What are your thoughts?