来源:Flickr.com
暗池是最近出现的一种股票交易所,其未完成订单的信息被故意隐藏,以最大限度地减少大额交易对市场的影响。暗池的成功和扩散在算法交易中创造了具有挑战性和有趣的问题,尤其是在多个竞争的暗池中优化大型交易的分配问题。在这项工作中,我们将这一优化问题形式化为一个多地点探索的审查数据,并提供了一个有效的和接近最优的算法来解决它。我们的算法及其分析与在强化学习中管理探索与利用权衡的已有研究的算法有很多共同点。我们还使用来自一家大型经纪公司的暗池执行数据,对我们的算法进行了广泛的实验评估。
回到顶部一个>
暗池我>是一种相对新型的交易所,旨在解决由于典型股票交易所的透明(或“轻”)性质而产生的问题,即难以将大规模交易的影响最小化。<年代up>3.一个>,<一个href="#R5">5一个>,<一个href="#R7">7一个>年代up>在一个典型的交易中,市场上存在大量买方(卖方)的事实会导致价格上涨(下跌),而买方(卖方)的费用将由买方(卖方)承担。如果交易量足够大,交易周期足够短,即使人们试图将交易分割成较小的交易,这种市场影响仍然存在。因此,近年来,人们对允许完全或部分隐藏大型交易的执行机制越来越感兴趣。
在一个典型的暗池中,买卖双方提交的指令只是简单地指明他们希望买入或卖出的股票总量,交易价格由“市场”外因决定。<年代up>一个一个>年代up>在提交购买(或出售)订单时<我>v我>股票交易时,一名交易员被放在买家(或卖家)的队列中等待交易。买家和卖家之间的匹配发生在订单的先后到达,类似于轻交换。然而,与轻量级交易所不同的是,它没有向交易员提供任何给定时刻池中可能有多少方或股票的信息。因此在给定的时间内,提交<我>v我>股票结果只在报告中有多少股票可达<我>v我>被处决。
虽然暗池本身也带来了交易挑战,但它已成为非常受欢迎的交易所,负责执行美国股票总交易量的1020%。事实上,它们非常成功,现在仅美国股市就有大约40多个暗池。这些交易所的流行让大宗交易员和券商面临一个新问题:如何在众多独立暗池中优化分配大宗交易?
为了回答这个问题,我们分析了一个更一般的多场地探索问题的框架和算法。我们考虑一个环境,在每个时间段,我们都有一些外生的决定<我>体积我>的<我>V我>抽象商品的单位(例如,客户想要出售的股票)。我们的目标是在每个步骤中“销售”或“消费”尽可能多的这些单位<我>K我>抽象的“场所”(例如各种暗池),在其中可能发生销售或消费。我们可以把我们的<我>V我>单位到任何方式,我们喜欢跨越场馆服务于这个目标。这个问题与大多数标准学习设置的区别在于如果<我>v我><年代ub>我我>年代ub>单位分配到场地<我>我我>,所有这些都被消费掉了,我们只知道会场的总需求<我>我我>是<我>至少我><我>v我><年代ub>我我>年代ub>,而不是精确的单位数量<我>可以我>都被消耗掉了。我们的框架的这个重要方面被称为<我>审查我>在统计学文献中。
在这项工作中,我们做了一个自然和普遍的假设,即最大的消费金额在场馆<我>我我>在每个时间步(或者在暗池问题中可用的总流动性)是根据一个固定但未知的分布绘制的<我>P我><年代ub>我我>年代ub>.正式地说,这意味着when<我>v我><年代ub>我我>年代ub>单位提交场地<我>我我>,一个值<我>年代我><年代ub>我我>年代ub>是从<我>P我><年代ub>我我>年代ub>观察到的(可能经过审查的)消费量为min {<我>年代我><年代ub>我我>年代ub>,<我>v我><年代ub>我我>年代ub>}。
我们的框架中的学习算法接收一系列卷<我>V我><年代up>1年代up>,<我>V我><年代up>2年代up>,……必须决定如何分配<我>V我><年代up>t我>年代up>单位在每个时间步骤跨越场馆<我>t我>.我们的目标是<我>有效地我>(在时间多项式中的参数模型)学习到一个接近最优的分配策略。有一个明显的<我>between-venue探索我>这一问题的分量,自股数最好提交给会场<我>我我>可能取决于两者<我>V我><年代up>t我>年代up>分布<我>其他我>场地,我们唯一可以发现分配的机制就是提交分配。如果我们经常提交过小的书给一个场地,我们会收到审查后的观察结果,并没有充分利用场地;如果我们提交的数量太大,我们会收到未经审查的观察结果,但库存过多。
我们的主要理论贡献是一个可证明的多项式时间算法,用于学习任何未知场地分布的接近最优策略<我>P我><年代ub>我我>年代ub>.这种算法采用了一种特别自然和吸引人的形式,其中<我>分配我>和分布<我>ree年代t我mation我>反复交替。更准确地说,在每个时间步,我们保持分布的估计<我>P我><年代ub>我我>年代ub>;假设这些估计实际上是完全正确的,我们分配当前的容量<我>V我>相应的行动。这些分配产生了每个场馆的观察消费,这些消费又被用来更新估计。我们证明当估计是“乐观尾修改”的经典<我>K一个planMeier我>对截尾数据的最大似然估计,该估计分配环路具有<我>可证明有效的场地间勘探我>产生所需结果的行为。在estimateallocation循环中,可用容量较小的场馆被逐渐分配到较小的拨款,而重复审查观察的场馆被逐渐分配到较大的拨款,最终确定一个接近最优的整体拨款分配。
最后,我们利用一家大型经纪公司的交易数据,对我们的模型和算法在暗池问题上进行了广泛的实验评估。
最接近我们设定的问题是被广泛研究的问题<我>书报摊贩问题我>来自运筹学文献。在这个问题中,玩家(代表报摊老板)在每个时间段选择一个数量<我>V我>以固定单价购买报纸,并试图在单一地点(报摊)的需求不确定的情况下优化利润。<年代up>b一个>年代up>嗯等。<年代up>10一个>年代up>是第一个考虑在这类问题中使用KaplanMeier估计器的人。它们使用类似于我们的estimateallocate循环,并显示<我>渐近我>在单一场所收敛到接近最优行为。管理一个<我>体内指定我>体积<我>V我>在<我>多个我>交易场所(这是暗池问题的重要方面,交易的数量是由客户指定的,有许多暗池)以及随之而来的探索和利用权衡<我>场地之间的我>是我们算法和分析的关键方面和不同点。我们还得到了更强的(多项式时间而不是渐近)边界,这需要对经典的KaplanMeier估计器进行修改。
形式上,我们考虑以下问题。在每一个时间<我>t我>,学习者面对的是一个量或<我>体积我><我>V我><年代up>t我>年代up>{1,…,<我>V我>}的单位,其中<我>V我><年代up>t我>年代up>是否从未知分布中采样<我>问我>.学习者必须决定一个<我>分配我><我mg src="https://dl.acm.org/cms/attachment/932617dd-da56-42bc-929b-3a110579aba4/cacm5305_m.gif" border="0" hspace="2" alt="cacm5305_m.gif">这些股份的一套<我>K我>已知的<我>场馆我>,<我>v我><年代up>t我>年代up>我我>年代ub>{0…<我>V我><年代up>t我>年代up>}为每个<我>我我><我mg src="https://dl.acm.org/cms/attachment/3600904f-8a5b-426a-a904-88303fb39f4b/isin.gif" border="0" hspace="2" alt="isin.gif">{1,…,<我>K我>},<年代up>k我>年代up>我我>= 1年代ub>v我><年代up>t我>年代up>我我>年代ub>=<我>V我><年代up>t我>年代up>.然后告诉学习者单位的数量<我>r我><年代up>t我>年代up>我我>年代ub>消耗我>在每一个地点<我>我我>.在这里<我>r我><年代up>t我>年代up>我我>年代ub>最小值= {<我>年代我><年代up>t我>年代up>我我>年代ub>,<我>v我><年代up>t我>年代up>我我>年代ub>},<我>年代我><年代up>t我>年代up>我我>年代ub>场地的最大消费水平是多少<我>我我>在时间<我>t我>,它从一个固定但未知的分布中独立抽样<我>P我><年代ub>我我>年代ub>.如果<我>r我><年代up>t我>年代up>我我>年代ub>=<我>v我><年代up>t我>年代up>我我>年代ub>,我们说算法接收到一个<我>审查的观察我>因为我们只能推断出这一点<我>r我><年代up>t我>年代up>我我>年代ub>年代我><年代up>t我>年代up>我我>年代ub>圣如果<我>r我><年代up>t我>年代up>我我>年代ub><<我>v我><年代up>t我>年代up>我我>年代ub>,我们说算法接收到一个<我>直接观察我>因为肯定是这样的<我>r我><年代up>t我>年代up>我我>年代ub>=<我>年代我><年代up>t我>年代up>我我>年代ub>.
学习者的目标是发现一种接近最优的一步分配策略,即一种分配策略,该分配策略近似地优化了单元的期望数量<我>V我><年代up>t我>年代up>在每个时间步消耗<我>t我>.(我们将在第4.4节的末尾简要讨论其他目标。)
在本文的其余部分,我们使用速记法<我>T我><年代ub>我我>年代ub>为<我>尾概率我>与<我>P我><年代ub>我我>年代ub>.也就是说,<我>T我><年代ub>我我>年代ub>(<我>年代我>) =<年代ub>年代我>'<我>年代我>年代ub>P我><年代ub>我我>年代ub>(<我>年代我>”)。<年代up>c一个>年代up>很明显<我>T我><年代ub>我我>年代ub>(0) = 1 for all<我>我我>.我们使用<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>年代我>的经验估计<我>T我><年代ub>我我>年代ub>(<我>年代我>)时间<我>t我>.
在解决整个勘探开发问题之前,我们必须考虑一个更基本的问题:给定估计<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>尾部概率的<我>T我><年代ub>我我>年代ub>为每一个场馆<我>我我>,我们如何才能使单个时间步内消耗的(估计)预期单位数量最大化?事实证明,这可以使用一个简单的贪婪分配方案来完成。贪心算法每次只分配一个单元。选择下一个单元分配到的地点是为了最大化单元被消耗的估计概率。很容易看出如果<我>v我><年代ub>我我>年代ub>各单位已分配到场馆<我>我我>,则下一个分配单元被消耗的估计概率为<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>(<我>v我><年代ub>我我>年代ub>+ 1)。文中给出了贪婪算法的形式化描述<一个href="#F1">图1一个>.
定理1。<我>返回的分配我>贪婪的<我>最大化单个时间步内消耗的单位的期望数量,其中期望是相对于估计的尾部概率采取的我>{<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>}<年代up>K我>年代up>我我>= 1年代ub>
这个定理的证明相当简单。利用尾巴概率必须满足的事实<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>(<我>年代我>)<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>(<我>年代我>”)的所有<我>年代我><我>年代我>,很容易验证,只要贪婪地按单位递减的顺序添加到场馆<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>(<我>年代我>),算法返回
证明的其余部分包括表明在这里被最大化的表达式等价于所消耗的期望单位数。这可以用代数方法来完成。<年代up>d一个>年代up>
本文给出了我们的主要理论结果,即基于截尾数据的多项式时间近最优多地点探测算法。我们算法的分析与E<年代up>3.一个>年代up>RMAX系列强化学习算法。<年代up>4一个>,<一个href="#R12">12一个>年代up>特别地,这里有一个类似于a的概念<我>已知状态我>这是早期算法的固有特点,还有<我>利用引理我>(证明了来自已知州的预期收益很高)和一个<我>探索引理我>(证明了长期的低回报必然会导致更多的州被人所知)。然而,在我们的设置中,状态数是指数的,因此我们的问题的特殊结构需要得到一个多项式时间算法。在更详细地研究它之前,我们首先提供算法及其分析的概述。
在最高层次上,算法是相当简单和自然的。它维护估计<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>对于真正未知的尾部概率<我>T我><年代ub>我我>年代ub>为每一个场馆<我>我我>.在某种特定的量化意义上,这些估计随着时间的推移而改善,这推动了不同地点之间的探索。在任何给定的时间<我>t我>,当前音量<我>V我><年代up>t我>年代up>是否只需调用最优贪婪分配方案<一个href="#F1">图1一个>对当前尾概率的估计集<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>.这就产生了来自每个地点的新的经过审查的观察结果,这些结果反过来又被用来更新估计<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>+ 1年代up>我我>年代ub>用于下一个时间步。因此,算法被正式地表述为<一个href="#F2">图2一个>,实现了一个连续的allocatereestimate循环。
注意,我们还没有描述算法的子例程<我>OptimisticKM我>,它指定了我们如何进行估算<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>从观测到的数据。最自然的选择是数据上的最大似然估计。该估计量在统计文献中被称为<我>K一个planMeier我>估计量。在下一节中,我们描述了KaplanMeier,并推导出一个新的收敛结果,以满足我们的特殊需求。这一结果让我们能够定义一个乐观的KaplanMeier尾部修改<我>OptimisticKM我>.<一个href="#F3">图3一个>显示完整的子例程。
我们的算法分析将在接下来的几节中进行更详细的阐述,分析过程如下:
步骤1:本文首先回顾了截尾数据的KaplanMeier极大似然估计,并给出了该估计的一个新的有限样本收敛界。这个边界允许我们定义a<我>截止我>为每一个场馆<我>我我>这样的尾部概率的KaplanMeier估计<我>T我><年代ub>我我>年代ub>(<我>年代我>的每一个值<我>年代我>截止点保证接近真实的尾部概率。然后我们定义了一个稍微修改过的KaplanMeier估计,即在截止点以上的下一个单位的尾部概率以乐观的方式修改。我们表明,结合贪婪分配方案,这种微小的修改会导致勘探增加,因为在边界之外的下一个单元看起来至少和边界本身一样好。
步骤2:接下来我们要证明我们的主力<我>利用引理我>(引理3)。这个引理表明,在任何时间步长,如果是贪婪算法分配给每个场地的单元数量严格低于该场地的分界点(可以认为是在a<我>已知状态我>用强化学习的说法)那么分配是可以证明的<我>我>最优。
步骤3:然后我们证明我们的主要<我>探索引理我>(引理4),表明在贪心算法进行分配的任何时间步长为<我>不我><我>我>-optimal时,就有可能降低算法探索的概率的下限。因此,每当我们不能确保一个近乎最优的分配时,我们就可以放心地进行探索。
步骤4:最后,我们证明了在任何足够长的时间步长序列上(其中<我>足够长的我>在模型的参数中是多项式的),它必须是这样的情况,要么算法已经实现了一个近乎最优的解决方案在几乎每一个时间步(因此将在未来继续表现良好),或算法已经充分探索了,以学习尾巴分布的准确估计到<我>V我>每个地点都有警员。在这两种情况下,我们都可以证明,在序列结束时,当前的算法很有可能会得到一个<我>我>-每个时间步的最优解,概率至少为1<我>我>.
4.1.KaplanMeier估计的收敛性
我们首先描述截尾数据的标准KaplanMeier极大似然估计,<年代up>11一个>,<一个href="#R13">13一个>年代up>把我们的注意力限制在一个地方<我>我我>.让<我>z我><年代ub>我,年代我>年代ub>这个场所的需求的真实概率是<我>确切的年代我>单位给定需求<我>至少年代我>单位。在形式上,
这很容易验证<我>年代我>> 0,
在较高的层次上,我们可以将KaplanMeier看作是第一次计算单独的<我>z我><年代ub>我,年代我>年代ub>为每一个<我>年代我>然后用这些估计值来计算<我>T我><年代ub>我我>年代ub>(<我>年代我>).
更具体地说,让<我>米我><年代up>t我>年代up>我,年代我>年代ub>的数量<我>直接我>的观察<我>年代我>截止时间单位<我>t我>,即严格大于的时间步数<我>年代我>单位被分配到场馆<我>我我>和完全<我>年代我>被消耗。让<我>N我><年代up>t我>年代up>我,年代我>年代ub>是直接或删减观察的数量<我>至少年代我>单位对时间步骤严格超过<我>年代我>单位被分配到场馆<我>我我>.然后我们可以自然地定义我们的估计<我><我mg src="https://dl.acm.org/cms/attachment/3e140a89-c56e-407d-a073-d671d326a90d/cacm5305_r.gif" border="0" hspace="2" alt="cacm5305_r.gif">t我>年代up>我,年代我>年代ub>=<我>米我><年代up>t我>年代up>我,年代我>年代ub>/<我>N我><年代up>t我>年代up>我,年代我>年代ub>,<我><我mg src="https://dl.acm.org/cms/attachment/3e140a89-c56e-407d-a073-d671d326a90d/cacm5305_r.gif" border="0" hspace="2" alt="cacm5305_r.gif">t我>年代up>我,年代我>年代ub>= 0,如果<我>N我><年代up>t我>年代up>我,年代我>年代ub>= 0。尾概率的KaplanMeier估计<我>年代我>>0后<我>t我>时间步长可以表示为
与<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(0) =<我>T我><年代ub>我我>年代ub>(0) = 1 for all<我>t我>.
之前的工作已经建立了在序列中每次提交的情况下,KaplanMeier估计器对真实的潜在分布的收敛速度<我>v我><年代up>1年代up>我我>年代ub>、……<我>v我><年代up>t我>年代up>我我>年代ub>独立同分布(i.i.d.),<年代up>8一个>年代up>对于非i.i.d的渐近收敛。设置。<年代up>10一个>年代up>我们不是在调查i.i.d.的案子,因为在一个地点提交的卷宗是所有地点分配和处决的整个历史的一个函数。在下面的定理中,我们给出了一个新的有限样本收敛界。
定理2。<我>让<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>为T的KaplanMeier估计我><年代ub>我我>年代ub>如式1所示。对于任何> 0,概率至少我>1<我>,对于每一个s我><我mg src="https://dl.acm.org/cms/attachment/3600904f-8a5b-426a-a904-88303fb39f4b/isin.gif" border="0" hspace="2" alt="isin.gif">{1,…,<我>V我>},
这一结果表明,随着我们做出越来越直接或删减的观察,至少<我>年代我>1个单位的时间步骤,其中至少<我>年代我>单位分配到场地<我>我我>的尾概率估计<我>年代我>股价迅速提高。
要证明这个定理,我们必须首先证明估计<我><我mg src="https://dl.acm.org/cms/attachment/3e140a89-c56e-407d-a073-d671d326a90d/cacm5305_r.gif" border="0" hspace="2" alt="cacm5305_r.gif">t我>年代up>我,年代我>年代ub>收敛到真实的概率<我>z我><年代ub>我,年代我>年代ub>.在i.i.d.设置中,使用标准浓度结果(如Hoeffding’s不等式)可以很容易地实现这一点。在我们的环境中,我们转而求助于阿祖马的不平等(例如,参见阿隆和斯宾塞<年代up>2一个>年代up>),用来包围的工具<我>鞅我>或序列<我>X我><年代ub>1年代ub>,<我>X我><年代ub>2年代ub>,……对于每一个<我>n我>、|<我>X我><年代ub>n我>年代ub>X我><年代ub>n我>+1年代ub>| 1和E [<我>X我><年代ub>n我>+1年代ub>|<我>X我><年代ub>n我>年代ub>]=<我>X我><年代ub>n我>年代ub>.特别地,我们展示了这个值<我>N我><年代up>t我>年代up>我,年代我>年代ub>(<我>z我><年代ub>我,年代我>年代ub>t我>年代up>我,年代我>年代ub>)可以表示为鞅序列的最后一项,使我们可以限定其绝对值。这又意味着|上的界限<我>z我><年代ub>我,年代我>年代ub>t我>年代up>我,年代我>年代ub>|,剩下要做的就是证明这些边界隐含了误差的边界<我>T我><年代ub>我我>年代ub>(<我>年代我>)和估计器<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">我我>年代ub>(<我>年代我>).
4.2.修改KaplanMeier
在<一个href="#F3">图3一个>,我们描述了我们的分析所需要的对KaplanMeier的微小修改。如上所述(步骤1),值<我>c我><年代up>t我>年代up>我我>年代ub>在这种算法中,可以直观地视为一个截止点,在此截止点之前,我们保证有足够的数据来使用KaplanMeier精确地估计尾部概率;这在引理1中被形式化了。因此对于每一个量<我>年代我><<我>c我><年代up>t我>年代up>我我>年代ub>,我们只是让<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>年代我>)与公式1中的KaplanMeier估计完全一致。
但是,为了促进探索,我们把价值设定为<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>+ 1)乐观到KaplanMeier估计的尾部概率在<我>c我><年代up>t我>年代up>我我>年代ub>(<我>不我>在<我>c我><年代up>t我>年代up>我我>年代ub>+ 1)。这种乐观的修改是必要的,以确保贪婪算法在每个时间步上探索(即,有机会朝着增加至少一个截止值的方向前进),因为它还没有产生一个<我>我>最优分配。特别地,假设当前贪心解分配的不超过<我>c我><年代up>t我>年代up>我我>年代ub>前往任何场地的单位<我>我我>和完全<我>c我><年代up>t我>年代up>j我>年代ub>单位到某个场地<我>j。我>使用标准的KaplanMeier尾概率估计,这种分配可能是次优的(没有办法知道是否包含单位会更好)<我>c我><年代up>t我>年代up>我我>年代ub>场地+ 1<我>j我>而不是从另一个地点来的单位,因为我们没有这个单位的尾巴概率的准确估计),但没有进行勘探。通过乐观地修改尾部概率<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>j我>年代ub>+ 1)对于每个场地,我们确保没有场地是未开发的,因为算法不幸地观察到少量低需求。
现在我们将概念形式化<我>c我><年代up>t我>年代up>我我>年代ub>作为KaplanMeier估计准确的分界点。在接下来的结果中,我们想到<我>我>> 0,<我>我>>0作为算法的固定参数。<年代up>e一个>年代up>
引理1。<我>对于任何s V,让<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>年代我>)<我>为T的KaplanMeier估计量我><年代ub>我我>年代ub>(<我>年代我>)<我>返回的我>OptimisticKM。<我>至少有可能我>1<我>,尽管我><我>年代我><我>c我><年代up>t我>年代up>我我>年代ub>、|<我>T我><年代ub>我我>年代ub>(<我>年代我>)<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>年代我>)|<我>我>/(8<我>V我>).
证明。总是这样<我>T我><年代ub>我我>年代ub>(0) =<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(0) = 1,所以结果保持简单,除非<我>c我><年代up>t我>年代up>我我>年代ub>> 0。假设情况就是这样。回想一下,<我>N我><年代up>t我>年代up>我,年代我>年代ub>直接或删减观察的数量至少是多少<我>年代我>单位对时间步骤严格超过<我>年代我>单位被分配到场馆<我>我。我>根据定义,它必须是<我>N我><年代up>t我>年代up>我,年代我>年代ub>N我><年代up>t我>年代up>我,年代我>年代ub>,每当<我>年代我><我>年代我>”。因此根据界别的定义<我>c我><年代up>t我>年代up>我我>年代ub>在<一个href="#F3">图3一个>,尽管<我>年代我><<我>c我><年代up>t我>年代up>我我>年代ub>cit,<我>N我><年代up>t我>年代up>我,年代我>年代ub>128 (<我>年代我><年代up>V我>年代up>/<我>我>)<年代up>2年代up>ln (2<我>V我>/<我>我>).引理紧接着是定理2的应用。
引理2表明,对于量的尾部概率估计的误差也有可能达到加性界<我>年代我>多<我>更大的我>比<我>c我><年代up>t我>年代up>我我>年代ub>只要尾巴的估计概率在<我>c我><年代up>t我>年代up>我我>年代ub>是足够小。直观上,这是因为尾概率在这些大的值<我>年代我>一定小于真实的尾部概率<我>c我><年代up>t我>年代up>我我>年代ub>在这种情况下,已知它已经非常小了。
引理2。<我>如果<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>)<我>/我>(4<我>V我>)<我>并且引理1中的高概率事件成立,那么对于所有s满足c我><年代up>t我>年代up>我我>年代ub><<我>年代我><我>V我>、|<我>T我><年代ub>我我>年代ub>(<我>年代我>)<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>年代我>)|<我>/我>(2<我>V我>).
4.3.开发和探索引理
我们现在准备陈述我们的主要内容<我>利用引理我>(步骤2),形式化的思想是,一旦发生了足够的探索量,贪婪算法的分配输出为<我>我>最优。这个引理的证明就是对KaplanMeier估计器的乐观尾部修正变得重要的地方。特别是因为乐观的设定<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>+ 1),我们知道如果贪婪策略精确分配<我>c我><年代up>t我>年代up>我我>年代ub>单位到场地<我>我我>在美国,将额外的单元从一个场馆分配到另一个场馆也不会获得太多好处<我>我我>代替。在这个意义上,我们在每个截点之上创建一个缓冲区,确保只要每个地点满足引理语句中的两个条件之一,就没有必要继续探索。
引理中的第二个条件乍一看似乎很神秘。要了解为什么它是必要的,请注意估计的速率<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>+ 1)收敛于真实尾部概率<我>T我><年代ub>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>定理2所暗示的+ 1)取决于我们观察到的消费次数<我>c我><年代up>t我>年代up>我我>年代ub>或多个单位。如果<我>T我><年代ub>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>)非常小,那么这么多单位的消耗就不会经常发生。幸运的是,如果是这样,我们就知道了<我>T我><年代ub>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>+ 1)也必须非常小,并且不需要更多的探索这个场所。
引理3(利用引理)。<我>假设在时刻t,引理1中的高概率事件成立。如果对于每个地点i, (1), v<年代up>t我>年代up>我年代ub>c<年代up>t年代up>我年代ub>或(2),<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t年代up>我年代ub>(<我>c<年代up>t年代up>我年代ub>)<我>/我>(4<我>V我>)<我>,为分配时所消耗的预期单位数目之差<我mg src="https://dl.acm.org/cms/attachment/932617dd-da56-42bc-929b-3a110579aba4/cacm5305_m.gif" border="0" hspace="2" alt="cacm5305_m.gif">在最优配置下,期望消耗的机组数为最大值我>.
素描的证据。证明从创建一个任意的一对一的映射之间分配到不同的场地由算法和最优分配。考虑这个映射中的任何一对。
如果引理中的第一个条件对场地成立<我>我我>该单元由算法分配给哪个单元,我们可以使用引理1来表明,该算法对该单元被消耗的概率的估计接近真实概率;具体来说,该算法并没有过分高估这个概率。如果第二个条件成立,那么算法对共享被消耗的概率的估计是如此之小,同样,算法不可能高估它太多(因为最小的概率可能是零)。这源于引理2。
现在考虑场地<我>j我>通过最优分配分配到哪个单元。如果单位数<我>v我><年代up>t我>年代up>j我>年代ub>算法分配给这个场地的分界点是严格小于分界点的<我>c我><年代up>t我>年代up>j我>年代ub>,则由引理1可知,该算法不可能低估额外单位被过多消耗的概率。此外,由于KaplanMeier估计器的乐观尾部修正,如果<我>v我><年代up>t我>年代up>j我>年代ub>=<我>c我><年代up>t我>年代up>j我>年代ub>.最后,如果引理语句中的第二个条件对地点成立<我>j我>,那么算法也不可能太过低估单位被消耗的概率,因为真实的概率是如此之低。
把这些片段放在一起,我们可以争论,对于匹配中的每一对(其中没有超过<我>V我>),因为算法并没有高估它选择的单元被过多消耗的概率(在这种情况下,<我>太多我>意味着更多的比<我>我>/(2<我>V我>),并没有太过低估相应单元在最优配置中的概率<我>我>/(2<我>V我>)),则最优分配与算法的期望消耗单位之差为最大值<我>我>.
最后,引理4给出了主要的探索引理(步骤3),说明在分配的任何时间步长上<我>不我><我>我>-optimal时,获得有用观测值的概率至少为<我>我>/(8<我>V我>).
引理4(探索引理)。<我>假设在时刻t,引理1中的高概率事件成立。如果分配不是-最优的,那么对于某个地点i,概率至少是我><我mg src="https://dl.acm.org/cms/attachment/ec9f2440-8198-4f5d-b62e-c8588e14a357/cacm5305_n.gif" border="0" hspace="2" alt="cacm5305_n.gif">
证明。假设分配不是<我>我>最佳的时间<我>t我>.由引理3可知,一定存在某个场所<我>我我>的<我>v我><年代up>t我>年代up>我我>年代ub>><我>c我><年代up>t我>年代up>我我>年代ub>而且<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>我我>年代ub>(<我>c我><年代up>t我>年代up>我我>年代ub>) ><我>我>/(4<我>V我>),即在该地点,算法已经分配了超过截点的单元,但在截点的尾部概率不太接近于零。让我们成为这样一个场所。自<我>v我><年代up>t我>年代up>><我>c我><年代up>t我>年代up>,则该算法将获得一个对该地点的探索有用的观测结果(即,一个观测引起<我mg src="https://dl.acm.org/cms/attachment/ae7a45b2-4721-4c71-8b3f-a3af72923b28/cacm5305_o.gif" border="0" hspace="2" alt="cacm5305_o.gif">如果在该场馆消费的单位数量足够高(具体来说,如果<我>r我><年代up>t我>年代up>><我>c我><年代up>t我>年代up>).自<我mg src="https://dl.acm.org/cms/attachment/02084e8b-846a-4b46-b9df-bc7c9f809f30/cacm5305_q.gif" border="0" hspace="2" alt="cacm5305_q.gif">t我>年代up>(<我>c我><年代up>t我>年代up>) ><我>/我>(4<我>V我>),引理1暗示了这一点<我>T我><年代ub>(<我>c我><年代up>t我>年代up>) ><我>/我>(8<我>V我>),这反过来又意味着,消费的单位数量足够高,至少有可能构成一个有用的观察<我>我>/(8<我>V我>).
4.4.把它们放在一起
利用和探索引理到位后,我们终于可以陈述我们的主要定理了。
定理3(主要定理)。<我>对于任何> 0和> 0,有概率我>1<我>(从Q和我>{<我>P我><年代ub>我我>年代ub>}<我>),在K、V中运行一个时间多项式后,我>1<我>/,我>ln (1 /<我>我>),<我>该算法在<一个href="#F2">图2一个>对每个后续时间步进行-最优分配,概率至少我>1<我>我>.
素描的证据。假设算法运行为<我>R我>时间步长,<我>R我>模型参数中是否有一个多项式(具体的,但目前未指定)<我>K我>,<我>V我>1/<我>我>和ln (1 /<我>我>).如果是这样的话,算法已经<我>我>-最优分数(1<我>我>)的<我>R我>时间步,那么我们可以认为算法会继续<我>我>-最优的至少一个分数(1<我>我>),因为随着时间的推移,随着估计的准确性提高,算法的性能应该会平均提高。
另一方面,如果算法选择了次优分配,至少在一小部分上<我>我>的<我>R我>时间步长,那么根据引理4,算法一定是递增的<我mg src="https://dl.acm.org/cms/attachment/ae7a45b2-4721-4c71-8b3f-a3af72923b28/cacm5305_o.gif" border="0" hspace="2" alt="cacm5305_o.gif">对于一些场馆<我>我我>和截止<我>c我><年代up>t我>年代up>我我>年代ub>约<我><年代up>2年代up>R我>/(8<我>V我>)次。根据定义<我>c我><年代up>t我>年代up>我我>年代ub>,永远不可能是这样<我mg src="https://dl.acm.org/cms/attachment/ae7a45b2-4721-4c71-8b3f-a3af72923b28/cacm5305_o.gif" border="0" hspace="2" alt="cacm5305_o.gif">增加的次数太多了<我>固定我>的值<我>我我>而且<我>c我><年代up>t我>年代up>我我>年代ub>(<我>太多的我>是一个多项式<我>V我>1/<我>我>和ln (1 /<我>我>));否则,这个分界点会增加。因为只有<我>K我>场馆和<我>V我>可能的分界值要考虑在每个场馆,总增量不能超过<我>KV我>乘以这个多项式,另一个多项式<我>V我>1/<我>我>ln (1 /<我>我>),现在<我>K我>.如果<我>R我>是否足够大(但仍然是所有期望量的多项式)和近似<我>我><年代up>2年代up>R我>/(8<我>V我>),我们可以说,每个场馆都必须充分开发,在这种情况下,未来的分配也会如此<我>我>最优。
我们注意到,KaplanMeier估计器的乐观尾修改是相对温和的。这使我们相信使用相同的estimateallocate循环和<我>未修改的我>在实践中,KaplanMeier估计器通常工作得很好。我们在下面的实验中研究了这个学习算法的参数化版本。
本文的其余部分将致力于将我们的技术应用于暗池问题。我们从描述我们使用的交易数据开始,然后描述我们进行的各种实验。
5.1.暗池数据的汇总
我们的数据集来自美国一家主要经纪商的内部暗池订单流。每一个(可能是经过审查的)观察结果都是整个文件三重讨论的形式,包括暗池名称、发送到该池的股份数量,以及随后在短时间间隔内执行的股份数量。强调数据的一些局限性是很重要的。首先,请注意,数据集将经纪公司用于跨暗池配置的政策与池中可用的流动性本身合并在一起。对于我们的数据集,有效的策略与下面讨论的强盗式方法非常相似。其次,决定跨池分配的总体交易量的“母”订单是由券商的交易需求决定的,同样也不在我们的控制范围之内。
该数据集包含了四个活跃的暗池的提交和执行情况:竞价交易(BIDS Trading)、自动交易台(Automated Trading Desk)、D.E. Shaw和NYFIX,分别针对十几个交易相对活跃的股票,<年代up>f一个>年代up>从而产生48个不同的库存数据集。这些股票在所有交易所的日均交易量(浅色和深色)在100万至6000万股之间,中位数为1500万股。能源,金融,消费,工业和公用事业行业的代表。我们的数据集涵盖30个交易日。对于每一对库存池,我们平均有1200个订单(从600到2000),这相当于130万股(从50到300万)。个人订单规模从100股到50,000股不等,1,000股为中位数。16%的订单至少部分完成(这意味着84%的订单没有执行),9%的提交量被执行,11%的观察结果被审查。
5.2.暗池的参数模型
我们为截尾勘探开发的理论和算法为场地分布提供了一种非常普遍的形式<我>P我><年代ub>我我>年代ub>.这种普遍性的缺点是,我们需要学习大量参数。更多的参数通常意味着需要更多的数据来保证模型的良好推广,这意味着在算法未来的性能接近最优之前,还需要更多的探索回合。因此,在某些应用中,对这些分布采用一种不那么一般但更简单的参数形式是有利的。
我们对分布的各种常见参数形式进行了实验。每一种形式的基本方法都是相同的。对于4 × 12 = 48个venustock对中的每一个,该对的数据被均匀地分成一个训练集和一个测试集。利用训练数据从参数类中选择最大似然模型。注意,我们不能再在每个模型类中直接应用非参数KaplanMeier估计器,我们必须直接最大化经过审查的训练数据的似然。对于我们研究的每个模型类,这是一个相对简单和有效的计算。然后使用测试集来衡量每个极大似然模型的泛化性能。
我们的调查显示,最好的模型保持了一个单独的参数来表示零份额的可能性(即,<我>P我><年代ub>我我>年代ub>(0)是显式估计的<我>零本我>或ZB参数。这是因为绝大多数提交(84%)给暗池的结果是没有股份被执行。然后,我们检查了场地分布的非零部分的各种参数形式,包括均匀(当然不需要额外的参数)和泊松、指数和幂律形式(每一种形式都需要单独的额外参数);每个表单都被应用到数据集中提交的最大数量,然后标准化。
泛化结果强烈倾向于幂律形式,其中概率的<我>年代我>可用的股份与1/成正比<我>年代<年代up>真实的<我>我>所谓的重尾分布<我>我>>0。用KaplanMeier训练的非参数模型对训练数据的拟合效果最好,但由于其相对于稀疏数据的复杂性,过拟合效果很差,而其他参数形式不能适应数据的重尾。总结如下<一个href="#T1">表1一个>.基于这种比较,对于我们的暗池研究,我们研究了我们主要算法的一个变体,其中estimateallocate循环有一个使用ZB +幂律模型内的极大似然估计的估计步骤,并且在这些相同的模型上贪婪地进行分配。
就估计的ZB +幂律参数本身而言,我们注意到,对于所有48个股票池对,Zero Bin参数占了大部分分布(在分数0.67和0.96之间),考虑到上述数据中完全未完成的订单的优势,这并不奇怪。48个指数中的绝大多数<我>我>之间的下降<我>我>=0.25,<我>我>= 1.3.,所以尾巴确实很长,但值得注意的是,对于四个暗池中的一个,12个估计指数中有7个实际上是<我>负我>,产生一个预测的模型<我>更高的我>体积更大的概率。这可能是我们的大小和时间有限的数据集造成的假象,但并非完全不现实,并会在模拟中产生一些有趣的行为。
5.3.基于数据的仿真结果
在任何控制问题中,我们所拥有的暗池数据不幸不足以评估和比较不同的分配算法。这是因为前面提到的事实,提交给每个场馆的数量是由产生数据的具体政策确定的,如果我们的算法选择提交1000份到某个场馆,我们无法探索其他选择,但在数据中只有500份被提交,我们根本无法推断我们想要提交的结果。
因此,我们使用原始数据派生出一个<我>模拟器我>我们可以用它来评估不同的方法。根据第5.2节的建模结果,对股票进行仿真<我>年代我>构造如下。对于每个暗池<我>我我>,我们使用<我>所有我>的资料<我>我我>和股票<我>年代我>估计最大似然零Bin +幂律分布。(注意,这里不需要进行训练-测试分离,因为我们已经分别验证了分布模型的选择。)这就产生了一套四种场地分布模型<我>P我><年代ub>我我>年代ub>这就形成了股票模拟器<我>年代我>.这个模拟器接受分配向量(<我>v我><年代ub>1年代ub>,<我>v我><年代ub>2年代ub>,<我>v我><年代ub>3.年代ub>,<我>v我><年代ub>4年代ub>)表示某些算法希望向每个交易场所提交多少股股票,从而得出“真正的流动性”值<我>年代我><年代ub>我我>年代ub>从<我>P我><年代ub>我我>年代ub>为每一个<我>我我>,并返回向量(<我>r我><年代ub>1年代ub>,<我>r我><年代ub>2年代ub>,<我>r我><年代ub>3.年代ub>,<我>r我><年代ub>4年代ub>),<我>r我><年代ub>我我>年代ub>= min (<我>v我><年代ub>我我>年代ub>,<我>年代我><年代ub>我我>年代ub>)是可能被审查的股数<我>我我>.
对所有12只股票,我们比较了四种不同的配置算法的表现。(显然不现实)<我>理想的分配我>是考虑到<我>正确的参数我>模拟器使用的ZB +幂律分布,并对这些分布分配最优(贪婪)的份额。的<我>统一分配我>在四个场地中平均分配任何顺序。我们的<我>学习算法我>实现了重复的allocatereestimate循环<一个href="#F2">图2一个>,采用极大似然ZB +幂律模型进行重估步骤。最后,简单的(也是相当天真的)<我>b而且我t-style算法我>维护场地的权重,并选择与权重成比例的分配。一开始,所有场馆的权重都是相等的,每分配到一个场馆,就会产生任意数量的股份被执行,导致该场馆的权重乘以一个常数因子<我>我>.(优化<我>我>在所有的股票池对的结果值<我>我>= 1.05)。
对这些算法的一些评论是合理的。首先,需要注意的是,理想的和统一的分配方法是不适应的,它们只能作为基线,其中一个是我们所希望的最佳性能(理想),而另一个是最简单的分配方法(统一)。其次,请注意我们的算法有一个明显的优势,即它使用了正确的参数形式,这与模拟器本身使用的形式相同。因此,与实际情况相比,我们对该算法的评估当然是乐观的。最后,需要注意的是,土匪算法是无遗憾文献中大量的基于权重的最粗糙的一种分配方案<年代up>6一个>年代up>;我们正在有效地迫使我们的问题变成一个0/1损失设置,对应于正在执行的“无股份”和“部分股份”。当然,更复杂的强盗式方法可以而且应该加以研究。
对每种算法进行了一定数量的仿真<我>集我>.每一集都有一个固定的号码<我>V我>因此,相同数量的股份是重复分配的算法,尽管这个分配当然会随着时间的推移,两个自适应算法的学习。每一集的模拟结果中都有一部分<我>V我>股票被执行。两个值的<我>V我>调查的价值较小吗<我>V我>= 1000,越大越困难<我>V我>=8000。
我们首先展示了2000集的完整学习曲线<我>V我>=8000对一对代表性股票在<一个href="#F4">图4一个>.本文将两种非自适应分配方案(理想分配方案和均匀分配方案)的平均性能表示为水平线,而自适应分配方案给出了学习曲线。由于模拟器使用的重尾场地分布的高方差,2000集的单次试验是非常嘈杂的,因此我们都为每个算法平均400多次试验,并使用标准指数衰减时间移动平均平滑产生的平均学习曲线。
我们看到我们的学习算法收敛到理想分配(如理论所建议的),通常相对较快。此外,在每种情况下,这一理想渐近线明显优于均匀分配稻草人,这意味着最优分配是高度不均匀的。在12只股票中,强盗方法的学习曲线显示了三种一般行为中的一种。在某些情况下,土匪方法与我们的算法相比是相当有竞争力的,尽管收敛到理想状态可能稍微慢一些(没有显示在<一个href="#F4">图4一个>).在其他情况下,强盗方法学会了比统一分配更好,但似乎与理想分配渐行渐远。最后,在某些情况下,土匪的方法似乎真的“学错了东西”,随着剧集的增加,性能明显下降。这种情况发生在一个地方有一个非常重的尾巴,但也有一个相对高的概率执行零份额,这是因为我们使用的非常天真的强盗方法没有一个明确的分布尾巴的表示。
的左列<一个href="#F5">图5一个>展示了在2000集之后,我们的算法与其他分配技术的性能的更系统的正面比较<我>V我>.绘制的值是学习曲线上最后50个点的平均值<一个href="#F4">图4一个>.这些散点图显示,在所有12只股票和<我>V我>,我们的算法与最优分配竞争得很好,显著优于均匀分配,并显著优于朴素的强盗分配(特别是与<我>V我>=8000)。对于大(小)订单序列,所有股票的平均完成率为10.0%(13.1%),而对于最优分配,平均完成率为13.6%(19.4%)。我们的算法性能几乎与最优的13.5%(18.7%)一样好,比盗匪的11.9%(17.2%)要好得多。
在右边的一列中,我们不是通过的分数来衡量性能<我>V我>股票是一步填补的,但由自然替代<我>订单半衰期我>的步数<我>重复我>重新提交剩余股份以获得上述执行总数<我>V我>/2。尽管我们的算法不是为了优化这个标准而设计的,我们的理论也不直接适用于它,但我们在这个度量上看到了同样广泛的故事——我们的算法与理想竞争,主导均匀分配,并在大订单上击败强盗方法。大(小)阶平均半衰期对于均匀分配是7.2(5.3),对于真实分布贪婪算法是5.9(4.4)。我们的算法平均需要6.0(4.9)步,而盗匪使用7.0(4.4)步来交易大(小)单。
虽然量化金融长期以来一直对使用机器学习和相关领域的模型感兴趣,但它们经常被用于预测价格的方向运动,或者用该领域的话说,是“生成alpha”(跑赢市场)。这里我们把注意力集中在一个经常被称为<我>算法交易我>人们寻求优化特定交易的属性,而不是在最近引入的暗池机制中首先决定交易什么。在某种程度上,由于问题的机制和结构所施加的约束,我们已经能够从统计和强化学习中适应和融合方法,开发出一种简单、高效和可证明有效的算法。我们期待未来机器学习方法在算法交易中有更多的应用。
我们感谢Curtis Pfeiffer和Andrew Westhead进行了有价值的对话,并感谢Bobby Kleinberg向我们介绍了关于报童问题的文献。
1.Akritas, M.G.非参数生存分析。<我>统计,Sci。19我>, 4(2004), 615623。
2.阿隆,N.,斯宾塞,J。<我>概率方法,第2版。我>威利,纽约,2000年。
3.Bogoslaw, D.大交易商潜入黑池。商业周刊文章,可在:<一个href="http://www.businessweek.com/investor/content/oct2007/pi2007102_394204.html">http://www.businessweek.com/investor/content/oct2007/pi2007102_394204.htm一个>,2007年。
4.Brafman, R., Tennenholtz, M. R. maxa一般多项式时间近似最优强化学习算法。<我>j·马赫。学习。> 3我>(2003), 213231。
5.阐明了对交易和美国市场结构的新的黑暗影响。<我>j.交易3我>, 1(2008), 4055。
6.西萨-比安奇,N.,卢戈西,G。<我>预测、学习和游戏我>,剑桥大学出版社,2006年。
7.Domowitz, Finkelshteyn, I., Yegerman, H. Cul de sacs和高速公路:暗池交易表现的光学之旅。<我>j.交易4我>, 1(2009), 1622。
8.刘志刚,刘志刚。基于随机截尾数据的非参数生存曲线估计的强一致一致性。<我>安。Stat。9我>, 1(1981), 122129。
9.K. Ganchev, Kearns, M. Nevmyvaka, Y., Vaughan, J.W.审查勘探和暗池问题。在<我>第25届人工智能不确定性会议论文集我>,2009年。
10.许卫东,李维,R., Rusmevichientong, P., Orlin, J.基于KaplanMeier估计器的自适应数据驱动库存控制策略。预印在<一个href="http://legacy.orie.cornell.edu/~paatrus/psfiles/km-myopic.pdf">http://legacy.orie.cornell.edu/~paatrus/psfiles/km-myopic.pdf一个>,2009年。
11.来自不完全观测的非参数估计。<我>j。统计协会。我>53.(1958),457481。
12.刘志强,刘志强,刘志强。多项式时间下的近最优强化学习。<我>马赫。学习。我>49(2002), 209232。
13.Peterson, A.V. KaplanMeier估计器。在<我>统计科学百科全书我>.威利,1983年。
Kuzman Ganchev(<一个href="mailto:kuzman@cis.upenn.edu">kuzman@cis.upenn.edu一个>),宾夕法尼亚大学。
看门人尤里Nevmyvaka(<一个href="mailto:yuriy@cs.cmu.edu">yuriy@cs.cmu.edu一个>),宾夕法尼亚大学。
迈克尔·卡恩斯(<一个href="mailto:mkearns@cis.upenn.edu">mkearns@cis.upenn.edu一个>),宾夕法尼亚大学。
詹妮弗Wortman沃恩(<一个href="mailto:jenn@seas.harvard.edu">jenn@seas.harvard.edu一个>),哈佛大学。
a.就我们的目的而言,我们可以把价格看作是轻交易中出价和要价之间的中点,尽管这有点过于简单了。
b.在我们的环境中,我们观察是很重要的<我>V我>由于是由客户外部给出的,而不是在交易员的控制下,这使我们的设置与之前的作品有所区别。
c.在早期的删剪估计文献中,这些尾部概率被称为<我>生存概率我>,因为<我>T我>(<我>年代我>)通常代表某一特定医学研究中病人至少存活的概率<我>年代我>在研究开始的几年之后。在这种情况下,当研究人员在研究过程中失去了患者的联系,只知道患者还活着时,观察结果经常会被审查<我>至少我>直到触点断开。<年代up>1一个>年代up>
d.好奇的读者可以在本文的原始版本中找到更多关于这个和其他被忽略的证明的细节。<年代up>9一个>年代up>
e.特别地,对应于定理3中的值,和<我>我>大致与之对应<我>我>除以时间步的多项式上界。
f.所代表的股票包括AIG、ALO、CMI、CVX、FRE、HAL、JPM、MER、MIR、NOV、XOM和NRG。
这篇论文的原始版本发表在<我>第25届人工智能不确定性会议论文集我>,2009年。
DOI: http://doi.acm.org/10.1145/1735223.1735247
图1。最优分配算法<我>贪婪的我>.
图2。主要算法。
图3。子例程<我>OptimisticKM。我>让<我>米我><年代up>t我>年代up>我,年代我>'年代ub>而且<我>N我><年代up>t我>年代up>我,年代我>'年代ub>的定义,并假定<我>,我>>0为固定参数。
图4。样例学习曲线。对于股票AIG(左图),朴素的土匪算法(标记为蓝色曲线)击败了均匀分配(横线虚线),但似乎渐近于理想(实线横线)。对于存量NRG(右面板),强盗算法实际上随着剧集的增加而恶化,表现不如均匀分配和理想分配。对于这两只股票(以及数据集中的其他10只股票),我们的算法(标记为红色曲线)的表现几乎是最优的。
图5。将我们的学习算法与三个基线进行比较。在每个图中,学习算法的性能被绘制在<我>y我>-轴上的一个基线的性能<我>x我>设在。左列:通过在单个时间步中执行的提交股份的分数评估;值越高越好,对角线以上的点对我们的算法是有利的。右:按顺序半衰期评估;越低的值越好,对角线以下的点对我们的算法是有利的。每个点对应一只股票和订单大小;小单(红色加号)为1000股,大单(蓝色方框)为8000股。
表1。每个场馆分布模型的平均每样本对数损失(负对数似然)。“胜”列显示了一个给定模型在测试数据中击败其他四个模型的股票-场所对的数量。
©2010 acm 0001-0782/10/0500 $10.00
允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2010 ACM有限公司
没有发现记录