acm-header
登录

一个CM通信

评论文章

统一逻辑与概率


统一逻辑与概率的最新进展,插图

信贷:Almagami

也许人工智能早期最持久的想法是声明用通用推理引擎对显式表示知识进行系统推理。这样的系统需要一种正式的语言来描述现实世界;而且现实世界里有很多东西。因此,经典的人工智能采用一阶逻辑——对象和关系的数学——作为其基础。

回到顶部

关键的见解

ins01.gif

一阶逻辑的主要好处是它的表达能力,这导致了简洁的——因此是可学习的——模型。例如,国际象棋的规则占100一阶逻辑的页数,105命题逻辑,10页38有限自动机语言中的页面。这种力量来自于将谓词从它们的参数中分离出来,并对这些参数进行量化:因此人们可以编写规则P c x y t)(块p的颜色c是在广场x, y在移动t)而不填写每个特定的值C p x y,t。

现代人工智能研究已经解决了现实世界的另一个重要属性——普遍的不确定性关于它的状态和动态——使用概率论。关键的一步是珍珠的发展贝叶斯网络它为概率模型提供了一种正式语言的开端,并使推理、学习、视觉和语言理解取得了快速进展。然而,贝叶斯网的表达能力是有限的。他们假设一组固定的变量,每一个都从一个固定值中取一个值范围;因此,它们是一个命题形式主义,就像布尔电路。国际象棋和许多其他领域的规则超出了他们的范围。

当然,接下来发生的是,经典的人工智能研究人员注意到普遍存在的不确定性,而现代人工智能研究人员注意到,或记住,世界中有东西。这两种传统都起源于同一个地方:世界是不确定的而且里面有东西。为了解决这个问题,我们必须把逻辑和概率统一起来。

但如何?甚至连这样一个目标的意义都不清楚。莱布尼茨、伯努利、德摩根、布尔、皮尔斯、凯恩斯和卡尔纳普(Hailperin调查)的早期尝试12和豪森14)涉及到将概率附加到逻辑句子中。这一行的工作影响了人工智能的研究,但作为代表知识的工具有严重的缺点。

另一种方法来自人工智能的两个分支和统计,它将逻辑的句法和语义装置(可组合函数符号、逻辑变量、量词)与贝叶斯网的组合语义结合起来。由此产生的语言使构建非常大的概率模型成为可能,并改变了分析真实世界数据的方式。

尽管它们取得了成功,但这些方法忽略了不确定性带来的一个重要后果:对世界上事物的不确定性。真实的物体很少像戏剧演员那样带有唯一的标识符或预先宣布它们的存在。在诸如视觉、语言理解、Web挖掘和计算机安全等领域,对象的存在是必须的推断出从不包含显式对象引用的原始数据(像素、字符串等)。

预先知道所有的物体和通过观察推断它们的存在之间的区别相当于两者之间的区别封闭的宇宙诸如SQL和逻辑程序等语言开宇宙语言如全一阶逻辑。本文特别关注开放宇宙概率模型。关于开放宇宙模型的部分描述了一种用于编写这种模型的正式语言,贝叶斯逻辑或BLOG。21它列举了几个例子,包括(以简化形式)《全面禁止核试验条约》的全球地震监测系统。

回到顶部

逻辑与概率

本节解释逻辑和概率的核心概念,首先可能的世界。一个一个可能的世界是一个形式对象(想想“数据结构”),任何断言的真实性都可以根据它来评估。

命题逻辑语言,句子由命题符号组成X1、……Xn以逻辑连接物(∧,∨, ̄,弟,讴诗)联接着可能的世界ω的所有可能的赋值真正的而且的符号。一阶逻辑增加了条款,即指对象的表达式;术语是常量符号、逻辑变量或k应用于的-ary函数k作为参数。命题符号被原子句取代,原子句由应用于术语的谓词符号或术语之间的等式组成。因此,父威廉(比尔,)而且父亲威廉)=比尔是原子的句子。量词∀和∃可以跨所有对象断言,例如,

ueq01.gif

对于一阶逻辑,一个可能的世界指定(1)一组域元素(或对象)o1o2,……(2)从常量符号到域元素以及从函数和谓词符号到域元素上的函数和关系的映射。图1一个显示一个带有两个常量和一个二元谓词的简单示例。请注意,一阶逻辑是一种开放宇宙语言:即使有两个常数符号,可能的世界允许1、2或任意多的对象。闭宇宙语言强制执行额外的假设:

- - -独特的名字假设要求不同的术语必须指不同的对象。
- - -域关闭假设要求除了用术语命名的对象外,没有其他对象。

这两个假设迫使每个世界都包含相同的对象,这些对象与语言的基本术语一一对应图1 b).b显然,开放宇宙语义下的世界集合更大、更异构,这使得定义开放宇宙概率模型的任务更具挑战性。

逻辑语言的形式语义定义了句子在可能世界中的真值。例如,一阶句子A = B是真实的ω敌我识别一个而且B中引用同一对象ω;因此,这是真实的在前三个世界图1一个第四项是错误的。(这是总是在闭宇宙语义下为False。)让Tα)是句子所在的世界的集合α是真的;然后一个句子α需要另一个句子βαβ,如果Tα)⊆Tβ).逻辑推理算法通常确定是否一个查询句子由已知的句子所包含。

在概率论中,a概率模型P对于一个可数空间,Ω可能的世界分配一个概率Pω),使0≤Pω)≤1,Σω∈ωPω) = 1。给定一个概率模型,一个逻辑句子的概率α是所有世界的总概率α是正确的:

eq01.gif

有条件的一个句子给出另一个句子的概率是Pα|β) =Pαβ) /Pβ),提供Pβ) > 0。一个随机变量是一个从可能的世界到固定值范围的函数;例如,有人可能会定义布尔随机变量VA = B要有价值真正的在前三个世界图1一个而且在第四。的分布一个随机变量的值是与它的每个可能值相关的概率集合。例如,假设有一个变量硬币值为0(正面)和1(反面)。然后断言硬币~伯努利(0.6)说硬币具有参数为0.6的伯努利分布,即值1的概率为0.6,值0的概率为0.4。

与逻辑学不同,概率论在表达非平凡断言的语法形式上缺乏广泛的共识。对于统计人员之间的交流,英语和LATEX的结合通常就足够了;但是需要精确的语言定义作为一般概率推理系统的“输入格式”和一般学习系统的“输出格式”。如上所述,贝叶斯网络27提供命题用例的(部分)语法和语义。随机变量贝叶斯网络的语法X1、……Xn由一个有向无环图组成,其节点对应于随机变量,以及相关的局部条件分布。c语义指定了变量的联合分布如下:

eq02.gif

这些定义具有令人满意的性质每一个格式良好的贝叶斯网都对应于相关笛卡尔积空间上的一个适当的概率模型。此外,一个稀疏图——反映底层域中的稀疏因果结构——会导致一个比相应的完整枚举小指数级的表示。

贝叶斯网络的例子图2(由于珍珠)显示了两个独立的原因,地震而且入室盗窃,影响是否报警珀尔教授家里的声音。根据式(2),联合概率P盗窃、地震、警报)由

ueq02.gif

计算结果如图所示。请注意,这八种可能的世界是命题逻辑理论中存在的相同的世界,具有相同的符号。

贝叶斯网络不仅仅是世界分布的规范;它也是一个随机的“机器”生成世界。通过按照拓扑顺序(即父母在孩子之前)对变量进行采样,可以完全根据式(2)中定义的分布生成一个世界。这种生成视图有助于将贝叶斯网扩展到一阶情况。

回到顶部

为逻辑添加概率

早期将逻辑和概率统一起来的尝试将概率直接附加到逻辑句子上。第一个严谨的处理,Gaifman的命题概率逻辑9被Hailperin12和尼尔森。23在这种逻辑中,我们可以断言,例如,

eq03.gif

模型中隐含的主张图2.这个句子入室盗窃地震在八个可能的世界中有六个是真的;因此,由式(1),断言(3)等价于

ueq03.gif

因为任何特定的概率模型μ给每一个可能的世界分配一个概率,这样的约束在μ中不是真就是假。因此,可能命题世界上的分布μ作为一个单一的可能世界,任何概率断言的真实性都可以根据这个可能世界进行评估。然后用与普通逻辑完全相同的方式定义概率断言之间的蕴涵;因此,断言(3)需要断言

ueq04.gif

因为后者在断言(3)成立的每个概率模型中都成立。这种断言集的可满足性可以通过线性规划来确定。12因此,我们有了与“时间逻辑”意义相同的“概率逻辑”,即专门用于用概率断言进行推理的演绎逻辑系统。

要将概率逻辑应用于诸如证明概率论定理等任务,就需要一种表达能力更强的语言。Gaifman8提出了一个一阶概率逻辑,可能的世界是一阶模型结构,概率附加在(无函数)一阶逻辑的句子上。

在人工智能中,Lukasiewicz的想法是这些想法最直接的后代概率逻辑程序,其中每个一阶Horn子句附加一个概率范围,并通过求解线性程序进行推理,如Hailperin所建议的。的子领域内概率数据库人们还会发现逻辑句子中标注了概率6但在这种情况下,概率直接附加到数据库的元组。(在人工智能和统计学中,概率依附于一般关系,而观察被视为无可争议的证据。)虽然概率数据库可以建模复杂的依赖关系,但在实践中,人们经常发现这样的系统使用跨元组的全局独立性假设。

Halpern13和酒神巴克斯3.采用并扩展了Gaifman的技术方法,补充道概率表达式的逻辑。因此,一个人可以写

ueq05.gif

在哪里现在入室盗窃而且报警是应用于各个房屋的谓词。新的语言表达能力更强,但并没有解决Gaifman面临的难题——如何定义完整和一致的概率模型。每个不平等约束底层概率模型位于概率模型的高维空间的半空间中。连接断言对应于交叉约束。确保交集产生一个单点并不容易。事实上,这是Gaifman的主要结果8是一个单概率模型,要求(1)每个可能的基础句都有一个概率,(2)无限多个存在量化句的概率约束。

对于这个问题,研究人员探索了两种解决方案。第一种方法是写一个部分理论,然后从允许的集合中挑选出一个规范模型来“完成”它。尼尔森23提出了选择最大熵模型与指定的约束一致。Paskin24开发了一种“最大熵概率逻辑”,将约束表示为一阶子句附加的权重(相对概率)。这样的模型通常被称为马尔可夫逻辑网络或mln30.已经成为涉及关系数据的应用程序的一种流行技术。然而,这种模型存在语义上的困难:在一个场景中训练的权重不能推广到具有不同数量对象的场景。此外,通过向场景中添加不相关的对象,可以在任意程度上更改模型对给定查询的预测。1620.

第二种方法恰好避免了刚才提到的问题,d建立在这样一个事实之上:每一个结构良好的贝叶斯网络都必须定义一个唯一的概率分布——a完整的理论用概率逻辑的术语来说,就是它所包含的变量。下一节将描述如何将该属性与一阶逻辑符号的表达能力结合起来。

回到顶部

带有量词的贝叶斯网

在贝叶斯网络被引入后不久,为应用程序开发贝叶斯网络的研究人员遇到了命题语言的局限性。例如,假设在图2在珀尔教授的房子所在的这个大地区有许多房子:每一幢都需要一个报警变量和入室盗窃变量具有相同的cpt,并连接到地震变量也是一样的。在命题语言中,这重复的结构必须手动构建,一次一个变量。同样的问题出现在序列数据(如文本和时间序列)的模型中,它们包含相同子模型的序列,以及贝叶斯参数学习模型中,其中每个实例变量都以相同的方式受到参数变量的影响。

起初,研究人员只是简单地写下项目建立网络,使用普通循环处理重复结构。图3显示用于构建报警网络的伪代码R地质上各有断裂带Hr)房屋。

画面法盘子是用来表示重复结构和软件工具,如BUGS10和微软的推论网促进了概率方法应用的迅速扩展。在所有这些工具中,模型结构是由一个固定的程序建立的,所以每个可能的世界都有相同的随机变量以相同的方式连接。此外,构建模型的代码不被看作是学习算法的输出。


开放宇宙概率模型(OUPM)定义了可能世界的概率分布,这些世界所包含的对象不同,从符号到对象的映射也不同。因此,oupm可以处理来自违反封闭宇宙假设的数据源的数据。


Breese4提出了一种更加陈述性的方法,让人想起霍恩从句。其他陈述性语言包括普尔的独立选择逻辑,佐藤的PRISM,科勒和普费弗的概率关系模型,以及德雷特的贝叶斯逻辑程序。在所有这些情况下,每个子句的头或依赖声明对应于子随机变量的参数化集合,父变量是子句体中字面量的对应基础实例。例如,式(4)显示了等价于中的代码片段的依赖语句图3

eq04.gif

在哪里CPT表示由相应参数索引的合适条件概率表。在这里,h而且r逻辑不同房屋和地区的变量;它们隐含地被普遍量化了。FaultRegion是连接房屋与其地质区域的功能符号。加上一个关系框架枚举每种类型的对象并指定每个函数和关系的值时,一组依赖语句(如式(4))对应于一个普通的,尽管可能非常大的贝叶斯网络。例如,如果一个区域有两个房子一个还有三个区域B,对应的贝叶斯网为图4

回到顶部

开宇宙模型

如前所述,封闭宇宙语言不允许对世界上的事物有不确定性;所有物体的存在和特性都必须事先知道。

相反,开放宇宙概率模型(OUPM)定义了可能世界的概率分布,这些世界所包含的对象和从符号到对象的映射不同。因此,oupm可以处理来自违反封闭宇宙假设的来源(文本、视频、雷达、情报报告等)的数据。鉴于证据,OUPMs学习关于这个世界所包含的物体。

看着图1一个,第一个问题是如何确保模型在异构的、无界的可能世界集合上指定了适当的分布。关键是将贝叶斯网的生成视图从命题扩展到一阶开放宇宙的情况:

-贝叶斯网络一次生成一个事件的命题世界;每个事件固定一个变量的值。
-一阶封闭宇宙模型(如式(4))定义了整个事件类别的生成步骤。
-一阶开放宇宙模型包括生成步骤向世界添加对象而不仅仅是修复它们的属性和关系。

例如,考虑式(4)中报警模型的开放宇宙版本。如果有人怀疑存在多达三个地质断层区,且概率相等,这可以表示为a数的声明

eq05.gif

为了说明问题,让我们假设一个地区的房屋数量r在0和4之间均匀绘制:

eq06.gif

在这里,FaultRegion被称为一个本功能因为它把房子和它的发源地连接起来。

依赖关系语句(4)和两个数字语句(5和6)以及必要的类型签名一起指定了可以用这个词汇表定义的所有可能领域的完整分布。这样的世界有无限多个,但由于数字陈述是有界的,只有有限多个——确切地说是317,680,374个——具有非零概率。图5展示了一个由这个模型构建的特定世界的例子。

博客语言21为由依赖关系和数字语句组成的开放宇宙概率模型提供精确的语法、语义和推理能力。BLOG模型可以任意复杂,但它们继承了贝叶斯网络的关键声明性属性:每个格式良好的BLOG模型都在可能的世界中指定了定义良好的概率分布。

要使这样的断言精确,就必须准确地定义这些世界是什么,以及模型如何为每个世界分配概率。定义(在Brian Milch的博士论文中给出了完整的定义)20.)从每个世界所包含的对象开始。在类型化一阶逻辑的标准语义中,对象只是带有类型的编号标记。在BLOG中,每个对象也有一个起源,说明它是如何产生的。(这种略显巴洛克风格的建筑的原因很快就会清楚了。)对于没有原点函数的数字语句——例如,式(5)——对象的原点为空;例如,地区, 2表示由该语句生成的第二个区域。对于带有原点函数的数字语句——例如,式(6)——每个对象记录其原点;例如,房子故障区域地区2,3是第二个区域的第三个房子。

变量的数量在一个BLOG模型中指定每种类型有多少个对象,每种可能的起源;因此#房子FaultRegion地区, 2ω) = 4表示在世界上ω在第2区有4所房子。的基本变量确定所有对象元组的谓词和函数的值;因此,地震地区, 2ω) =真正的意味着在世界上ω2区发生了地震。一个可能的世界是由所有数量变量和基本变量的值定义的。一个世界可以通过拓扑顺序的抽样从模型中生成,例如,见图5

这样构造的世界的概率是所有采样值的概率的乘积;在本例中,为0.00003972063952。现在清楚了为什么每个对象包含它的起源:这个属性确保每个世界都可以由一个采样序列构建。如果不是这样,那么世界的概率将是所有可能产生这个世界的采样序列的总和。

开放宇宙模型可能有无限多的随机变量,因此完整的理论包含了非平凡的度量理论考虑。例如,数字语句#地区泊松(μ)分配概率e−μμk/k!对每个非负整数k。此外,该语言允许递归和无限类型(整数、字符串等)。最后,格式良好不允许循环依赖和无限后退的祖先链;这些条件通常是不可确定的,但某些语法充分条件可以很容易地检查。

回到顶部

例子

BLOG的标准“用例”有三个元素模型,证据(给定情景中的已知事实),以及查询,它可以是任何表达式,可能带有自由逻辑变量。根据模型给出的证据,答案是自由变量的每个可能替换集的后验联合概率。e每个模型都包括类型声明、谓词和函数的类型签名、每个类型的一个或多个数字语句以及每个谓词和函数的一个依赖关系语句。(在这里的例子中,为了意思清楚,省略了声明和签名。)依赖语句使用if-then-else语法来处理所谓的上下文相关的依赖关系,其中一个变量可能是或不是另一个变量的父变量,取决于第三个变量的值。

引用匹配。CiteSeer和谷歌Scholar等系统从原始ASCII引用字符串中提取类似数据库的表示,通过作者身份和引用链接将论文和研究人员联系起来。这些字符串不包含对象标识符,并且包含语法、拼写、标点和内容错误,这些错误又会导致所提取数据库中的错误。例如,2002年,CiteSeer报告了罗素和诺维格写的120多本不同的书。

此领域的生成模型(图6)将一个潜在的、未被观察到的世界与被观察到的字符串连接起来:有研究人员,他们有名字;研究人员写论文,论文有标题;人们引用论文,根据一些语法将作者姓名和论文标题(有错误)合并到引文文本中。在给定引用字符串作为证据的情况下,该模型的多作者版本在无监督的方式下训练,错误率比CiteSeer在四个标准测试集上的错误率低2到3倍。25在这样一个垂直集成模型中的推理过程也表现出一种集体的、知识驱动的消歧形式:对于一篇给定的论文,引用越多,每一篇论文的解析就越准确,因为解析者必须就论文的事实达成一致。

多目标跟踪。给定由一组未知的、时变的对象生成的一组未标记的数据点,目标是检测和跟踪底层对象。例如,在雷达系统中,雷达天线的每一次旋转都会产生一组光点。可能会出现新的对象,现有的对象可能会消失,可能会出现误报和检测失败的情况。标准模型(图7)假设独立的线性高斯动态和测量。精确推断被证明是难以处理的,但MCMC通常在实践中工作得很好。也许更重要的是,场景的细化(编队飞行、物体向未知目的地飞行、物体起飞或降落)可以通过对模型的微小更改来处理,而无需求助于新的数学推导和复杂的编程。

核条约监控。核查《全面禁止核试验条约》需要找到地球上所有超过最低震级的地震事件。联合国禁核试条约组织维持着一个传感器网络,即国际监测系统(IMS);其自动处理软件基于100年的地震学研究,检测失败率约为30%。NET-VISA系统,2基于OUPM,显著减少检测失败。

NET-VISA模式(图8)直接表达了相关的地球物理。它描述了在给定时间间隔内(大多数是自然发生的)事件数量的分布,以及事件的时间、震级、深度和位置的分布。自然事件的位置是根据历史数据的空间先验训练(像模型的其他部分)分布的;根据条约规则,人为事件被认为是统一发生的。在每一站年代,各相(地震波类型)p从一个事件e产生0或1个检测(超过阈值信号);探测概率取决于事件的震级和深度及其与台站的距离。(“虚警”检测也会根据特定于站点的速率参数发生。)测量的到达时间、振幅和探测的其他性质d取决于起源事件的性质及其与站点的距离。

一旦训练,模型就会连续运行。证据由从原始IMS波形数据中提取的检测(其中90%为误报)组成,查询通常要求最可能的事件历史,或者公告,考虑到数据。由于前面解释过的原因,NET-VISA使用了一种特殊目的的推理算法。到目前为止的结果是令人鼓舞的:例如,2009年联合国SEL3自动公报遗漏了27,294个3-4级事件中的27.4%,而NET-VISA遗漏了11.1%。此外,与密集的区域网络相比,NET-VISA发现的真实事件比联合国地震专家分析人员最终发布的公告多50%。NET-VISA也倾向于将更多的探测与给定的事件联系起来,从而得到更准确的位置估计图9).禁核试条约组织已宣布有意尽快部署NET-VISA。

举例说明。尽管表面上有差异,但这三个例子在结构上是相似的:有一些未知的物体(论文、飞机、地震)根据一些物理过程(引用、雷达探测、地震传播)产生感知。同样的结构和推理模式适用于数据库重复数据删除和自然语言理解等领域。在某些情况下,推断一个物体的存在需要将感知分组在一起——这个过程类似于机器学习中的聚类任务。在其他情况下,一个物体可能根本不产生知觉,但仍然可以推断出它的存在——例如,当对天王星的观察导致海王星的发现时就发生了这种情况。允许物体轨迹非独立图7允许发生这样的推断。

回到顶部

推理

由式(1),得到概率Pα|e)用于封闭查询句α鉴于证据e与所有世界的概率之和成正比α而且e满足,每个世界的概率是前面解释的模型参数的乘积。

有许多算法可以计算或近似贝叶斯网的乘积和。因此,考虑是很自然的接地一个一阶概率模型,通过实例化逻辑变量与“所有可能的”基础项,以生成一个贝叶斯网络,如图4;然后,可以应用现有的推理算法。

由于这些地面网络的规模很大,准确的推断通常是不可行的。最常用的近似推理方法是马尔可夫链蒙特卡罗法。MCMC方法在可能的世界之间执行随机游走,由访问世界的相对概率指导,并从每个世界聚合查询结果。MCMC算法在随机游走的邻域结构选择和随机游走的邻域结构选择上各不相同建议分布从中采样下一个状态;在这些选择的遍历性条件下,样本将收敛到极限的真后验。MCMC的网络规模很好,但它的混合时间(样本反映真实后验所需要的时间)对条件分布的定量结构敏感;事实上,硬性约束可能会阻止趋同。

错误10和mln30.将MCMC应用到一个预先构建的地面网络上,它需要一个可能世界的大小的边界,并强制它们的命题“位向量”表示。另一种方法是将MCMC直接应用于一阶可能世界的空间2631;这提供了更多的使用自由,例如,稀疏图甚至关系数据库19代表每个世界。此外,在这种观点中很容易看出,MCMC动作不仅可以改变关系和功能,而且可以增加或减去对象,改变常数符号的解释;因此,MCMC可以在开放宇宙世界中移动图1一个

如前所述,一个典型的BLOG模型有无限多个可能的世界,每个世界的潜在大小都是无限的。作为一个例子,考虑多目标跟踪模型图7:该函数X一个t),表示飞机的状态一个在时间t,对应于每一步无界数量的飞机的无穷变量序列。尽管如此,对于任何形式良好的BLOG模型,在通常的遍历性条件下,BLOG的MCMC推理算法都会收敛到正确答案。20.

该算法通过抽样不完全指定的可能世界来实现这一点部分世界,每个世界都对应着一组互不相连的完整世界。片面的世界是一个最小的自营实例化f的一个子集有关变量,即证据变量和查询变量的祖先。例如,变量X一个t),以查阅t大于最后一次观测时间(或查询时间,两者中较大的)是不相关的,因此算法可以只考虑无限序列的有限前缀。此外,该算法通过计算不同大小的部分世界之间的MCMC转换所需的组合比,消除对象重新编号下的同构现象。22

一阶语言的MCMC算法也受益于位置计算的27:相邻世界之间的概率比取决于一个大小恒定的子图,该子图围绕着值被改变的变量。此外,还可以计算逻辑查询增量在每个访问的世界中,通常每个世界在恒定时间内,而不是从头开始重新计算。1931

尽管有这些优化,BLOG和其他一阶语言的通用推理仍然太慢。大多数实际应用需要一个特殊用途的提议分布来减少混合时间。为解决这一问题,正在采取若干途径:

- - - - - -编译器技术可以生成特定于模型、查询和/或证据的推理代码。微软的infer.net使用这样的方法来处理数百万个变量。BLOG的实验显示速度超过100倍。18
- - - - - -专用的硬件——比如模拟设备公司的GP5芯片——提供了进一步的恒因子加速。
- - - - - -特殊用途的取样器联合抽样严格约束的变量组。这样的采样器库可以使大多数用户程序得到有效的解决。
- - - - - -静态分析能转换程序以提高效率吗515并确定精确可解的子模型。7

最后,快速发展的技术解除推理29目的是将概率论与逻辑在推论层面统一起来,从逻辑定理证明中借鉴和推广思想。根据Van den Broeck的调查,32可以避免接地,并利用对称性通过操纵符号分布在大的对象集。

回到顶部

学习

生成语言如BLOG和BUGS自然支持无需修改的贝叶斯参数学习:参数被定义为具有先验的随机变量,普通推理产生给定证据的后验参数分布。例如,在图8我们可以加上一个先验λe~ Gamma(3,0.1)为地震速率参数λe而不是预先确定它的价值;随着数据的到来,学习也在继续,即使在没有提供基本事实事件的无监督情况下也是如此。一个具有固定参数值的“训练模型”可以通过选择最大值等方法获得后验值。通过这种方式,只需几行建模代码就可以实现许多标准的机器学习方法。通过声明某些参数是可学习的,省略它们的先验,将最大化步骤与MCMC推理步骤交错,可以添加极大似然参数估计,从而得到随机在线EM算法。

结构学习—生成新的依赖项、新的谓词和函数—则更加困难。平衡拟合度和模型复杂性的标准思想可以被应用,一些归纳逻辑规划领域的模型搜索方法可以推广到概率情况,但目前尚不清楚如何使这些方法在计算上可行。

回到顶部

概率和程序

概率的编程语言或人17表示一种明确但密切相关的定义表达概率模型的方法。其基本思想是,用普通编程语言编写的随机算法不能被视为要执行的程序,而可以被视为概率模型:可能性的分布执行跟踪程序的,给定输入。通过固定跟踪的任何方面来断言证据,查询是跟踪上的任何谓词。例如,可以编写一个简单的Java程序来掷三个六面骰子;将总和固定为13;求第二个骰子是偶数的概率。答案是完全轨迹概率的总和;轨迹的概率是轨迹中所做的随机选择的概率的乘积。

第一个重要的PPL是普费弗的IBAL,28一种具有有效推理引擎的函数式语言。教堂,11建立在Scheme基础上的PPL,作为一种模拟复杂学习形式的方法,引起了认知科学界的兴趣;这也导致了与可计算性理论的有趣联系1以及编程语言研究。图10展示了教堂盗窃/地震的例子;请注意,PPL代码显式构建了一个可能世界的数据结构。CHURCH中的推理使用MCMC,其中每个移动对产生当前轨迹所涉及的随机原语中的一个进行抽样。

随机程序的执行轨迹可能在它们生成的新对象中有所不同;因此,pls有一种开放宇宙的味道。人们可以将BLOG视为声明性的、关系性的PPL,但在语义上有一个显著的区别:在BLOG中,在任何给定的可能的世界中,每个基础术语都有一个单独的值;因此,表达式如f(1) =f(1)根据定义为真。另一方面,在PPL中,f(1) =f(1)可能为假,如果f是一个随机函数,因为每个实例的f(1)对应于执行跟踪的一个不同的片段。记住每一个随机函数(通过mem图10)恢复标准语义。

回到顶部

前景

这是统一逻辑和概率过程的早期阶段。为广泛的应用程序开发模型的经验将揭示新的建模习惯用法,并导致新的编程构造类型。当然,推理和学习仍然是主要的瓶颈。

历史上,人工智能一直遭受着狭隘和分裂的影响。直到20世纪90年代,它仍然与统计和运筹学等领域隔离开来,而它的子领域——尤其是视觉和机器人——则各走各的路。主要原因是数学不相容:一个精通线性回归和高斯混合的上世纪60年代的统计学家,能给一个正在制造机器人去杂货店购物的人工智能研究人员提供什么?贝叶斯网络已经开始将人工智能与统计、视觉和语言研究重新连接起来;一阶概率语言具有贝叶斯网络和一阶逻辑作为特例,它将扩展和拓宽这一过程。

回到顶部

致谢

我以前的学生Brian Milch、Hanna Pasula、Nimar Arora、Erik Sudderth、Bhaskara Marthi、David Sontag、Daniel Ong和Andrey Kolobov都对这项研究做出了贡献,还有NSF、DARPA、Blaise Pascal主席和ANR。

回到顶部

参考文献

1.关于条件概率的可计算性。arXiv 1005.3014, 2013。

2.阿罗拉,n.s.,罗素,苏德斯,E. NET-VISA:网络处理垂直集成地震分析。公牛。地震。Soc。103年。(2013)。

3.酒神巴克斯,F。概率知识的表示与推理。麻省理工学院出版社,1990年。

4.信念与决策网络的建构。第一版。智能。(1992) 624 - 647。

5.G. Claret, Rajamani, S.K, Nori, a.v., Gordon, ad, Borgström, J.使用数据流分析的贝叶斯推理。在FSE-13(2013)。

6.Dalvi, n.n., Ré, C., Suciu, D.概率数据库。CACM 52, 7(2009), 86-94。

7.自动贝叶斯:一种从统计模型生成数据分析程序的系统。j .功能。项目13(2003)。

8.关于一阶结石的测量。2 .以色列(1964),队。

9.关于布尔代数的测度。14 . c(1964), 61 - 73。

10.吉尔克斯,w.r.,托马斯,A, Spiegelhalter, D.J.复杂贝叶斯建模的语言和程序。统计学家43(1994), 169 - 178。

11.Goodman, n.d., Mansinghka, v.k., Roy, D, Bonawitz, K, Tenenbaum, J.B. Church:生成模型的语言。在UAI-08(2008)。

12.概率逻辑。形式逻辑, 3(1984), 198-212。

13.一阶概率逻辑的分析。AIJ 46, 3(1990), 311-350。

14.概率与逻辑。j:。逻辑1, 3-4(2003), 151-165。

15.户珥,C.-K。,Nori, A.V., Rajamani, S.K., Samuel, S. Slicing probabilistic programs. InPLDI-14(2014)。

16.Jain, D., Kirchlechner, B., betz, M.扩展马尔可夫逻辑在关系域的概率分布模型。在KI-07(2007)。

17.科勒,D.,麦卡莱斯特,D.,普费弗,A.随机方案的有效贝叶斯推理。在aaai - 97(1997)。

18.李丽娟,吴玉林,杨晓燕,杨晓燕:概率程序的编译推理。EECS-2015-12技术报告,加州大学伯克利分校,2015。

19.A.麦卡勒姆,舒尔茨,K.辛格,S.工厂:通过命令定义因子图的概率编程。在少量的22(2010)。

20.未知对象的概率模型。博士论文,加州大学伯克利分校,2006年。

21.Milch, B., Marthi, B., Sontag, D., Russell, s.j., Ong, D., Kolobov, A.博客:未知对象的概率模型。在IJCAI-05(2005)。

22.关系结构的通用MCMC推理。在UAI-06(2006)。

23.概率逻辑。AIJ 28(1986), 71 - 87。

24.最大熵概率逻辑。技术报告UCB/CSD-01-1161,加州大学伯克利分校,2002。

25.马氏,王晓燕,王晓燕。身份不确定性与引文匹配。在少量的15(2003)。

26.一阶概率语言的近似推理。在IJCAI-01(2001)。

27.珠儿,J。智能系统中的概率推理。1988年摩根考夫曼。

28.巴尔:一种概率理性编程语言。在IJCAI-01(2001)。

29.普尔,D.一阶概率推理。在IJCAI-03(2003)。

30.理查德森,M.多明戈斯,P.马尔可夫逻辑网络。机器学习62, 1-2(2006), 107-136。

31.科学中的表达概率模型。在发现科学(东京,1999)。

32.范登布鲁克,G。统计关系模型中的提升推理和学习。博士论文,2013年,鲁汶大学。

回到顶部

作者

斯图亚特·罗素russell@cs.berkeley.edu),是加州大学伯克利分校的计算机科学教授和Smith-Zadeh工程学教授。

回到顶部

脚注

在逻辑上,一个可能的世界可以称为一个模型结构;在概率论中,a样本点。为避免混淆,本文使用“模型”仅指概率模型。

b.开放/封闭的区别也可以用一个常识性的例子来说明。假设一个系统知道这一点父亲(威廉)=法案而且父亲初级)=法案。比尔有几个孩子?在闭宇宙语义下——例如,在数据库中——他正好有两个;在开放宇宙语义下,在1到∞之间。

c.贝叶斯网络上的文本通常不为表以外的局部条件分布定义语法,尽管贝叶斯网络软件包定义了语法。

d.简单地说,通过将生成的对象存在模型与对象属性和关系模型分离,并允许未观察到的对象,可以避免这些问题。

e.与Prolog一样,可以有无限多个大小不限的替换集;为这些答案设计探索性接口是一个有趣的HCI挑战。

f.如果一个变量集合中每个变量的父变量也在该集合中,则该变量集合的实例化是自支持的。

回到顶部

数据

F1图1。(a)对于具有两个常数符号的一阶开放宇宙语言来说,有无限多个可能的世界,一个而且B,和一个二元谓词Rx, y).的解释一个而且B黑色箭头连接成对的物体R。(b)闭宇宙语义学下的类似图;这里,正好有四种可能x, y-pair,因此为24= 16世界。

F2图2。左:带有三个布尔变量的贝叶斯网络,表示的条件概率真正的对于给定父变量的每个变量。右:由式(2)定义的联合分布

F3图3。图2中用于构建贝叶斯网络版本的说明性伪代码R不同的地区Hr)的房子。

F4图4。给定区域内两个房屋时,对应于式(4)的贝叶斯网一个和三个B

F5图5。从盗窃/地震模型中抽样构建一个可能的世界。每一行都显示了被采样的变量、它接收到的值,以及该值的概率取决于前面的赋值。

F6图6。引文信息提取的BLOG模型。为了简单起见,该模型假定每篇论文只有一个作者,并省略了语法和错误模型的细节。OM (a、b)是一个以10为底的离散对数正态函数,即数量级为10一个±b

F7图7。多目标雷达跟踪的BLOG模型。X一个t)是飞机的状态一个在时间t,而Zb)为光点的观测位置b

F8图8。NET-VISA模型。

F9图9。2013年2月12日朝鲜核试验地点估计:联合国禁核试条约组织后期事件公报(绿色三角形);NET-VISA(蓝色方块)。隧道入口(黑色十字)距离NET-VISA估计的0.75公里。等高线显示了NET-VISA的后验位置分布。

F10图10。一个表示公式(4)-(6)中盗窃/地震模型的教会程序。

UF1数字观看作者在此独家讨论他们的工作通信视频。//www.eqigeno.com/videos/unifying-logic-and-probability

回到顶部


版权归作者所有。授权ACM出版权利。

数字图书馆是由计算机协会出版的。版权所有©2015 ACM, Inc.


没有发现记录

统一逻辑与概率

" >
Baidu
map