贡献的文章

为鸟类写博客:从遥测数据讲述有关鸟类生活的信息故事


带卫星标签的飞鸟,插图

来源:Andrij Borys Associates / Shutterstock

“写鸟博客”是一种新颖的人工智能程序,它可以生成创造性文本,以交流来自安装在红风筝上的卫星标签的遥测数据。红风筝是一种中型食肉鸟,是英国物种再引入计划的一部分。我们通过丰富气象和地图数据来解决实时通信遥测传感器数据的挑战。编纂生态知识,根据丰富的数据创造性地解释鸟类个体的行为,并动态生成面向公众的信息丰富、引人入胜的数据驱动博客。

回到顶部

关键的见解

ins01.gif"></p>
      <p>地理空间数据在当今世界无处不在,例如智能手机和汽车黑匣子上的GPS接收器收集了大量遥测数据。遥测技术在生态领域的应用尤其引人注目,卫星标签的广泛使用极大地促进了我们对自然世界的理解。<sup><a href=14,23尽管GPS遥测技术越来越受欢迎,但它有一个重要的缺点,那就是对大量位置数据的处理和解释都是耗时的,因此大部分时间都是在收集数据很久之后。1024这阻碍了在自然保护中对数据的有效利用,需要立即对数据进行分析和解释,以采取行动或与更广泛的受众进行交流。2526

GPS数据的广泛可用性,以及相关的实时解释和通信困难,反映了其他形式的数字或结构化数据的情况。应该指出的是,使用计算方法进行数据分析本身并不是什么新鲜事;很多科学都依赖于统计分析和相关的可视化工具。然而,人们普遍认为,这些工具是由人类操作员来调节的,他们负责识别数据中的模式,并准确地传达这些模式。在数据科学这个不断发展的领域中,一项重要但相对较新的技术叫做自然语言生成技术15这将自动化整个数据管道,从数据(无论是数值数据还是结构化数据)生成文本报告。自然语言生成最初是为工作场所提供决策支持而开发的,它已经为专业人员生成了技术数据的文本摘要,包括工程师、护士和石油钻井工人,591321而且越来越成为主流。Gartner, Inc.在2017年预测,到2019年,90%的商业智能系统将包含自然语言生成。11像Arria (https://www.arria.com/)、叙事科学(https://narrativescience.com/),以及自动洞察(http://automatedinsights.com/)已开发软件,将数据汇总为文本报告;事实上,印刷媒体机构越来越多地转向机器人新闻,许多常规的数据驱动的新闻报道对专业记者来说既耗时又单调,现在完全由计算机程序编写。这种数据到文本的应用程序首先要求准确性和清晰度,并且已经指出,对于工作场所应用程序,语言使用的一致性是计算机生成的输出优于人类生成的文本的主要原因。16

在计算机生成语言谱系的另一端是计算创造力学科,计算机程序试图构建笑话,1短篇小说,7和诗歌。8在这里,我们在“创意写作”的背景下使用术语“创造力”,由牛津字典“写作,通常是小说或诗歌,展示想象力或发明(通常与学术或新闻写作形成对比)。”一个人们经常说,创造力,尤其是与设计有关的,不仅要求作品具有想象力或创造性,而且还要求“恰当”,就像斯特恩伯格所说的那样。19在他对写作即设计的描述中,沙普尔斯18将适当性的想法与“约束”联系起来,“约束”为创造性表达提供了框架和背景,可以由文学类型或作家工作的概念空间施加。

用于计算创造力的计算机程序使用静态的知识来源,通常是手动构建的,以获取笑话模板、叙事情节、故事语法和角色。在讲故事的领域,创造力通过涌现的叙事表现出来,这些叙事是通过模仿智能代理的角色互动动态创造出来的,20.从相同的潜在情节表现中构建不同的叙事,17或者裁剪语言成分来生成类似人类的叙事散文。3.深度神经网络最近被应用于诗歌的生成,通过预测适合情绪或主题的可能的单词序列,同时还建模由特定体裁(如中国的绝句诗)施加的音调和结构限制。2829

早期的工作是以故事的形式交流时空数据22帮助有复杂沟通需求的孩子向父母描述他们的学校生活。在这里,麦克风和无线射频识别(RFID)阅读器被安装在轮椅上,由教师录制音频,或与带有射频识别标签的地点、人员和物体进行互动。在这项工作中,计算机生成的文本被限制为RFID记录下的互动的事实摘要,而创造力通过教师提供的语音记录或通过允许孩子们通过编辑系统输出来个性化他们的故事的功能被纳入。

前面总结的工作主体要么从现实世界的数据生成事实报告,通过直接的人工输入引入创造性22或者从正式表示中生成创造性文本,而无需求助于现实世界的数据。我们不知道以前有任何计算机程序可以在没有人工输入的情况下从真实世界的数据生成创造性文本。为了解决这一差距,我们描述了“博客鸟”(Blogging Birds),我们设计它来从安装在动物身上的卫星标签生成的数据中生成创造性文本。博客鸟的主要品种是红鸢(Milvus Milvus).这种猛禽曾经在英国广泛分布,但长期和激烈的迫害导致它在20世纪40年代几乎灭绝。

1989年,英国皇家鸟类保护协会(RSPB)启动了一项计划,在英国各地重新引入该物种4在其中一个地点,苏格兰北部因弗内斯附近的黑岛,几只鸟都配备了太阳能卫星标签。有限的人力资源意味着标签主要用于定位已经死亡的鸟类,以促进发现和起诉可能的野生动物犯罪。然而,人们认为,利用这些标签的数据进行围绕再引种计划的公众参与活动,传播增强人们对物种理解的生态见解,并为该物种创造一个积极的形象,以获得公众对再引种的支持,是有空间的。24皇家鸟类保护协会的工作人员自己也热衷于更好地了解重新引进的鸟类的生活,特别是它们是如何重新殖民一个多世纪以来很少有红风筝的景观的。他们认识到标签产生的数据的内在局限性,并且对数据的想象性解释持开放态度,只要所叙述的行为在生态上是合理的。

这些要求让我们有机会研究由计算机数据驱动的创造性文本的生成,我们相信博客鸟目前为止在实现这一点上是独一无二的。生成的文本具有创造性,因为它们在风筝生态和数据本身施加的限制下,在如何解释和报告数据方面表现出想象力和创造性。我们试图通过实验来回答两个研究问题:与基于相同数据的人类博客相比,计算机生成的博客会被读者更好地理解吗?以及生态洞察力的创造性叙述对读者对电脑生成博客的看法有多重要?

回到顶部

博客鸟系统

博客鸟最初的目标是将一个物种的个体(比如红风筝)通过卫星标记。通过构建生态合理的叙事来描述他们的运动。自然资源保护主义者在红风筝雏鸟羽翼未羽化之前,立即给它们安装了卫星标签sptt -100 22克太阳能Argos/GPS pttc,使用了设计为最小障碍的背包背带。这些标签由太阳能供电,并通过编程每天记录多达6个位置。虽然在夏季确实可以达到这个最大值,但由于苏格兰缺乏阳光,春季和秋季的固定次数就更少了(每天最多4次),冬季也只有偶尔的固定次数。为了进一步保存电池电量,数据每周只从标签传输到卫星一次。因此,我们将Blogging Birds配置为每周生成一个博客,或者每次从一只鸟接收到数据时生成一个博客。

图1概述了“博客鸟”系统的整体架构。接下来我们将描述主要组件;另见Ponnamperuma等人。12

f1.jpg"></a><br><b>图1所示。系统架构。</b></p>
      <p><i>数据增加。</i>该系统处理带有固定在红风筝上的标签的GPS定位的电子邮件信息,并从网上随时可用的有关当地天气的数据(<a href=https://www.metoffice.gov.uk/datapoint)、生境(例如不同类型的草地和森林、https://eip.ceh.ac.uk/lcm),以及地理特征(如河流、湖泊、道路和地点名称,https://www.ordnancesurvey.co.uk/).表1展示了博客鸟使用的丰富数据的一个样本。

t1.jpg"></a><br><b>表1。用于特定鸟类一周中某一天的模式挖掘的增强数据示例。</b></p>
      <p><i>数据分析。</i>该系统然后应用数据分析程序,以确定这些临时定居地区的居住范围和迁移模式。使用R的Adehabitat包将主范围标识为多边形<sup><a href=2通过用90%的核聚类个体之前的位置。正如van der Wal等人所描述的,24我们将局部运动模式建模为角向和径向速度向量,以识别以相对直线在较高速度下旅行为特征的偏移。此数据分析允许文档规划器(下面将介绍)检测中移动的三种原型模式图2,即风筝停留在其活动范围内,探索其活动范围外的区域,或从一个活动范围移动到另一个。图3显示鸟类的计算家范围(灰色多边形),以及固定分类为短途(黑色十字)和非短途(琥珀十字)。

f2.jpg"></a><br><b>图2。典型的红风筝运动模式:C1是在一个密集使用的区域(家庭范围)内的小而狭窄的运动;C2是从一个家庭范围的探索运动(往返);C3是不同家庭范围之间的直接移动。</b></p>
      <p align=f3.jpg"></a><br><b>图3。计算的家范围(灰色多边形)和固定分类为远足(黑色十字)或非远足(琥珀十字)为特定的鸟。</b></p>
      <p><i>文档计划。</i>中的文档规划器<a href=图3识别数据中的模式,表明不同的红风筝行为,并创建“消息”(实现为Java类),对这些行为进行编码,供“微规划师”和“句子实现器”使用,然后生成英语句子。

数据分析允许我们检测三种原型模式的运动概述图2,即风筝停留在其活动范围内,探索其活动范围外的区域,或从一个活动范围移动到另一个。生态域模型进一步将不同的旅行、觅食和社会行为定义为特定环境和地理条件下适用的规则;例如,大雨过后,在任何草地栖息地观察到的风筝都可能以蚯蚓为食,而在下午晚些时候在林地栖息地附近观察到的风筝很可能正在准备栖息。这些规则实现为JBoss Drools (http://www.jboss.org/drools),一个业务逻辑集成平台,它允许我们在数据中检测到特定模式时实例化消息。总的来说,该系统为26种运动行为实现了Drools(例如沿海岸飞行或飞越城堡或湖泊等地标,以及在中与家庭范围相关的运动模式)图2);33种觅食行为,主要是描述风筝在一年中的不同时间在不同栖息地可获得的食物,但有时也与特定特征有关(例如,当一只红风筝在公路附近寻找被公路杀死的动物时);六种社会行为(如栖息和筑巢);请参阅网上附录“规则示例”(dl.acm.org/citation.cfm ? doid = 3231588选=格式).

然后,模式检测模块将这些规则详尽地应用于卫星定位,以生成所有观察到的运动行为以及与已知环境和地理条件一致的所有可能的觅食和社会行为的列表。后者是创作过程的第一步,该项目探索了概念空间,以“想象”风筝可能会如何表现。

Blogging Birds使用基于规则的文本规划器进行动态文本生成。规划规则决定信息如何排序,但是包含哪些信息以及如何将其组织成句子是在运行时以数据驱动的方式确定的。

博客通常分为三段,第一段描述总体趋势,第二段提供更多日常细节,第三段提出一个关于风筝下一步可能做什么的问题,偶尔也会给出一个结论。

内容是通过信息的总结和聚合过程来选择的。这是博客一代的第二个创造性方面(第一个涉及想象大量可能的行为),因为它计划从想象的行为中讲述什么故事。“博客鸟”旨在提供主要行为的概述,并突出人类读者可能感兴趣的方面。运动行为被认为比觅食行为更有趣,稀少的觅食行为比频繁的觅食行为更受重视。每篇博客都试图通过选择不同日子里的不同行为,让读者了解红风筝生态的不同方面。主要步骤如下:

回到顶部

本条第一款

运动模式。根据检测到的移动模式- ternc1、C2或C3生成消息图2;如果鸟的年龄可以用来解释这种模式,添加这样的解释信息;

栖息地了。生成一条信息,总结所访问的栖息地;而且

其他的风筝。生成关于附近记录的其他风筝的消息(如果有的话)。

回到顶部

第二款

星期几。迭代一周中的每一天(周一到周五):

  • 如果鸟保持相对静止图2然后生成关于附近地方的消息或生成关于检测到的任何运动行为的消息;而且
  • 生成一个关于新的(以前没有使用过的)可能的觅食行为的消息,如果有任何推断;不寻常的(历史上不常见的)行为被选择在普通行为之上。

删除冗余。通过这两个步骤聚合一周生成的消息以消除冗余(例如将行为相似的日子分组在一起)。

回到顶部

段3

运动模式。根据动作模式c1, C2或c3生成一个问题或评论的消息,目的是吸引读者。

微计划和句子实现器。微规划器获取文档规划器生成的消息,通过各种语言设备(如范围、协调和从属)实现聚合,并通过改变词汇来限制语言重复。它为“句子实现器”提供句子规范,然后“句子实现器”使用SimpleNLG库生成句子。6

图4是“博客鸟”界面的截图,在这个界面中,一个自动生成的风筝每周博客被覆盖在一个鸟的位置的谷歌地图上,它的历史家范围标记为蓝色多边形。在这个例子中,威维斯(Wyvis)是博客中提到的五只红鸢之一,它在两个活动范围(运动模式C3)之间飞行,并根据鸟的年龄提供了对观察到的运动模式的解释。该系统强调了社会方面的参考栖息和遇到其他标记的风筝。第二段是按时间顺序叙述的,再次小心地强调任何不寻常的行为(比如周二的长途飞行),并引用天气状况(“多云”),使文本更吸引人。还提供了不同生境类型的觅食潜力的信息。聚合被用来避免重复,使用语言手段(如范围“周三到周日”,协调“St Filans, Tullybannocher, and Edinample”,从属“主要在酸性草地上,而在耕地上进行奇怪的旅程”)。最后一段中提出的问题是根据检测到的运动模式来选择的。

f4.jpg"></a><br><b>图4。“博客鸟”网页界面的截图。</b></p>
      <p>在这里,我们关注的是每个博客所涵盖的时间框架设置为一周的情况,因为这是标记被编程来传输数据的频率。但是,系统架构足够通用,能够处理其他时间框架,并且界面还允许用户选择一周中的一天并阅读针对这一天编写的博客。从理论上讲,博客也可以提供更长的时间框架,但由于该项目的目标是让读者持续监测或跟踪鸟类,所以这个选项没有实现。</p>
      <p class=回到顶部

评价

我们调查了基于相同数据的计算机生成的博客与人类写的博客相比,读者是如何评价的,以及生成的生态见解对这种评价的贡献。为此,我们设计了一些研究来评估不同运动模式的计算机生成博客的质量,首先是通过与手工撰写的博客进行比较,然后与基线计算机生成的博客进行比较,这些博客报告的数据是真实的,没有生态洞察力。

方法。我们关注的是中概述的三种典型运动模式图2作为条件C1, C2和C3。对于每一种情况,我们都确定了12周的数据,使焦点红风筝的运动大致符合这种情况(例如,在图4对应C3),总共有36周的数据。


生成的文本具有创造性,因为它们在风筝生态和数据本身施加的限制下,在如何解释和报告数据方面表现出想象力和创造性。


比较人类写的博客。我们从苏格兰阿伯丁大学(University of Aberdeen)招募了12名生态学硕士研究生(代表那些可能被保护慈善机构雇佣的人),在教学时间外参加了一个关于“自然保护中的数字媒体”的两小时会议。我们告诉他们,他们将根据我们提供的环境数据写三个简短的博客,说这将花费他们大约1.5个小时,参与我们的研究将有利于他们,同时让他们对新技术有独特的见解,我们将补偿他们15英镑现金,以表达我们在学习过程中帮助我们的感激之情。

我们为每位作者提供了一页关于红风筝的信息表,其中总结了“博客鸟”系统中编码的典型运动模式、觅食和社会行为。他们还可以自由查阅自己喜欢的任何在线资源。我们还向他们提供了系统本周可用的丰富数据,以两种表格形式(如表1),并将其覆盖在地图上,显示住宅范围和固定位置(例如图4,但没有博客)。我们提供给12名学生作者的信息足以让他们做出与系统相同的推论。然而,为了给予作者充分的创作自由,并避免引导他们写与系统相似的博客,我们避免让他们直接访问系统做出或使用的推论。他们被进一步告知博客的预期目的和目标受众,每个人被要求写三篇200字的博客;也就是说,对于三个不同周的数据,每种条件下各有一个(C1C3 in图2)这样,在36周的研究中,我们每天都有一个手工写的博客。作者遇到每种情况的顺序是随机的,作者在研究中没有明确地意识到这些情况的存在,尽管这些模式在各自的地图上清晰可见,并在信息表上进行了描述。在评估中,这36个手工撰写的博客与电脑生成的博客进行了比较。

因为我们的目标是调查“博客鸟”,不只是作为对自然保护感兴趣的人的工具,而是作为吸引对新技术感兴趣的人的资源。我们对两组不同的参与者进行了评估:93名生物学本科学生参加了第二年的“社区生态学”课程,49名来自不同学科的一年级和二年级本科生参加了一门名为“数字社会”的课程,都在阿伯丁大学。在每次试验中,参与者坐在一个单独的工作站上,在一个星期的时间里,他们会看到一个界面,上面有一个家庭范围的地图和风筝的位置,还有两个博客,一个是手工写的,一个是计算机生成的,没有任何关于它们来源的信息。参与者说他们更喜欢什么博客(或不喜欢什么),还用李克特7分制对每个博客的信息量、流畅度和吸引力进行评分。每个参与者评估三对博客。我们设计了这项研究来测试三个特定的假设:

H1。电脑生成的博客比人写的博客更受欢迎;

H2。电脑生成的博客比人写的博客信息量更大、更流畅、更吸引人;而且

H3。电脑生成的博客和人写的博客评分的差异取决于一只鸟的运动模式C1, C2或C3,比如图2

与基线比较。为了直接评估通过博客传播生态见解对读者是否重要,我们将博客鸟类与计算机生成的基线进行了比较,后者在没有参考生态概念的情况下记录了运动模式;看到表2举个例子。这些基线博客是完全真实的,报告的行为只是在数据中直接观察到的,但在其他方面遵循与全系统博客相同的格式。另外27名本科学生参加了数字社会课程,但没有参加之前的实验,他们使用与之前相同的方法和界面对完整系统与基线系统进行了评估。我们设计这项研究来测试两个特定的假设:

t2.jpg"></a><br><b>表2。基本的电脑生成的博客,没有参考生态概念的一周概述<a href=图4

H4。具有生态见解的计算机生成博客比没有生态见解的计算机生成博客更受欢迎;而且

H5。具有生态见解的计算机生成的博客比没有生态见解的基础计算机生成的博客更有信息量和吸引力,而它们的流畅性不相上下。

回到顶部

结果

对人类博客的评价。两组学生都表现出了对电脑生成的博客的总体显著偏好(238个试验vs. 153个试验中更喜欢人写的博客;2= 18.5;p< 0.001),证实假说H1。然而,一个更复杂的模式出现了(见图5),这种偏好取决于博客c1, C2,或c3中所涵盖的风筝运动类型以及课程生态或技术的方向。

f5.jpg"></a><br><b>图5。根据运动状况对人写博客和电脑生成博客的偏好,例如<a href=图2: C1是在一个家庭范围内的移动;C2是往返;C3是主范围之间的移动。

在整个社区生态学的学生中,当他们通过风筝的往返旅行(C2)和家庭范围之间的移动(C3)捕捉到更广泛的运动时,他们对计算机生成的博客有强烈的偏好,而当风筝运动有限时,两种博客类型的偏好差异不大;即家庭范围内的小运动(C1)。数字社会的学生只有在描述往返旅行时才对计算机生成的博客表现出明显的总体偏好(C2)。综上所述,我们的研究结果表明,“博客鸟”特别擅长处理焦点鸟表现出大量运动的情况。这些博客的流畅度、吸引力和信息量的平均评分(见图6)显示,电脑生成的博客的主要优势在于它们的“信息量”,在吸引人的程度和流畅程度上也有较小的改善。

f6.jpg"></a><br><b>图6。人写的博客和电脑生成的博客按运动状况的平均评分,比如<a href=图2: C1是在一个家庭范围内的移动;C2是往返;C3是主范围之间的移动。

我们运行了一个MANOVA,以信息性、参与性和流畅性为因变量,博客类型(计算机或人类)、风筝运动模式(C1、C2或C3)、学生群体(社区生态或数字社会)及其相互作用为固定效应,作者ID和评估者ID为随机效应。我们发现以下主要效应和相互作用p<0.01:用电脑写的博客评分明显更高(p<0.0001)高于人类撰写的博客(证实假设H2);数字社会课程的学生整体评分高于社区生态课程的学生(p< 0.01);博客类型和运动模式之间存在交互作用(p<0.0001),证实假说H3。使用Tukey HSD测试对带有bonferroni校正的个体anova进行事后分析,揭示了这种相互作用的产生,因为在相同的条件下,计算机生成的博客捕捉到风筝更多的运动(C2和C3),比人类编写的博客更有信息,比计算机生成的博客捕捉到受限的运动(C1)更有信息(p每次比较<0.0001)。

为了更好地理解这些所描述的影响,我们比较了每个人类作者(H1H12)和计算机(Comp)获得的评分分布图7。只有两个博客作者(H3和H10)被认为写的博客比计算机生成的博客更有信息量,而且他们都被认为不如计算机生成的博客有吸引力和流畅性。同样地,H4写的博客比电脑写的更流畅、更吸引人,但在“信息量”这一项上得分很低,这说明了同时做到信息丰富、吸引人、流利是很困难的,即使对人类作家来说也是如此。事实上,所有的作者都投入了,并且用了整整1.5个小时来撰写博客,但大多数人在三个指标上都比计算机表现得好。有关人工撰写和计算机生成博客的例子,以及评估人员如何评估它们的细节,请参阅在线附录。

f7.jpg"></a><br><b>图7。计算机生成的博客(Comp) vs.人写的博客(H1H12)。</b></p>
      <p>博客作者填写的调查问卷提供了许多有趣的见解。总的来说,他们发现很难用不到200个单词来理解和总结大量的数据,但他们也觉得做得越多,这个过程就越容易。然而,许多人担心博客变得重复,特别是如果红风筝的实际行为几乎没有变化,这主要是由于缺乏对风筝生态学和行为的了解。总结不同格式的数据范围当然具有挑战性,有些人比其他人更喜欢这个过程。博客作者如何使用提供给他们的材料来创建博客有相当大的可变性。一些人主要关注谷歌地图上的可见模式,另一些人则通过单击各个地图点来查看地图数据的更详细信息,而另一些人则发现以表格格式检查数据最有用。当被问及他们是否愿意把写红风筝博客作为一份工作时,他们的共识是,尽管一开始很享受,但很快就会变得乏味,写非重复性的材料越来越难。</p>
      <hr align=

遥测数据无处不在,可以通过智能手机和其他移动设备获取,也可以通过交通行业和其他行业使用的车辆中嵌入的GPS传感器获取。


对照基线进行评估。参与者表现出对具有生态洞察力的完整系统的结结性偏好,在61个试验中偏爱它,而在20个试验中偏爱基线(2= 21.5;p< 0.001),证实假说H4。有趣的是,当博客描述在那几周内鸟类几乎没有移动的情况时,这种影响是最强的(C1);在这里,23个试验中,全系统博客比4个基线博客更受欢迎(2= 13.4;p= 0.0002)。对于C2和C3,对应的值分别是20次和18次试验中对整个系统的偏好,而分别是8次试验中对基线的偏好(2= 5.1, 3.8;p= 0.0233, 0.0499)。因此,基线系统缺乏生态解释对所有运动模式都是不利的,特别是当鸟类相对静止时。我们还发现完整的博客被认为信息量更大(p<0.0001),更吸引人(p=0.0215),但并不流利(p= 0.825)(见图8),证实假说H5。

f8.jpg"></a><br><b>图8。具有生态洞察力的计算机生成博客(完整系统)vs.仅描述运动模式的计算机生成博客(基线系统)。</b></p>
      <p>我们在这里展示的两项研究表明,计算机生成的博客比人类写的博客得到了更积极的评价,而且具有创造性的生态见解的计算机生成的博客比使用相同数据但不包含这些见解的博客更受欢迎。</p>
      <p class=回到顶部

结论

“博客鸟”系统表明,原始卫星标签数据可以转化为流畅、吸引人、信息丰富的文本,面向公众,支持自然保护。

我们证明了计算机可以与人类专家竞争,从数字数据中生成创造性的故事。与为新闻报道或工作场所决策生成文本的自然语言生成系统不同,“博客鸟”的叙述并不完全是事实。虽然该系统受到观测数据及其生态域模型的约束,但红鸢的觅食和社会行为报告仅为想象发生:发生过然而,在叙事中包含这些行为可以让我们向读者传达红风筝生态,博客也因此得到了更好的评价。因此,我们的工作同时解决了有效传播数据和让公众参与科学研究的社会挑战。

Blogging Birds通过结合三种不同类型的分析生成的文本来组成博客:第一种是对遥测数据的一般事实总结,其中丰富了有关天气条件、栖息地类型和地理特征的特定位置信息,并且可以很容易地用于其他领域。第二是在家庭范围使用的背景下对运动数据的处理和生态解释,第三是利用领域知识编码为规则的集合,帮助系统从环境和地理参数中想象可能的觅食和社会行为。博客的许多创意和有趣之处都来自后一种领域特定类型的数据分析。虽然已开发的原则适用范围更广,但新的应用程序将需要构建与使用领域相关的知识库。虽然这是我们方法的明显局限性,但请注意,我们对运动数据的生态学解释尤其适用于其他几种物种。例如,我们已经为金雕开发了一个“Blogging Birds”版本(Aquila chrysaetos)供皇家鸟类保护协会的保育人员使用,成功地重复使用了第二种和第一种类型的分析。

在项目进行过程中,我们还发现生态学家对苏格兰红鸢的觅食行为知之甚少,因为在它们相对较新的重新引入之后,它们没有得到广泛的研究。因此,我们只能对每种栖息地类型编码有限数量的规则。在这一领域缺乏任何大规模的文本语料库也意味着我们无法应用深度学习方法,这种方法正在迅速流行起来,用于在计算机生成的文本中生成语言变异。27在未来的工作中,我们计划邀请博客鸟的用户提供来自英国各地的行为观察,使我们能够同时策划一套更大的规则和进一步的公众参与。

最后,我们在这里所展示的想法具有更广泛的适用性。遥测数据无处不在,可以通过智能手机和其他移动设备获取,也可以通过交通行业和其他行业使用的车辆中嵌入的GPS传感器获取。即使是带有时间戳和地理标记的相册也提供了类似于我们这里使用的数据。博客的性质,以及用于丰富数据的信息源,将取决于应用程序,以博客关于一个假期或揭示一个超市食品的来源和旅程。实际上,我们已经证明了通过数据丰富和自然语言生成的过程,可以在博客上记录这些数据,为使用人工智能通过数据吸引人们开辟了新的途径。

回到顶部

致谢

这项研究得到了RCUK数字经济计划给dot.rural数字经济中心的奖励,奖励参考EP/G066051/1。

回到顶部

参考文献

1.Binsted, K.和Ritchie, G.生成双关语谜语的计算规则。《国际幽默研究杂志, 1(1997年7月),2576。

2.R软件的软件包“adehabitat”:一个分析动物使用空间和栖息地的工具。生态模型197, 3(2006年4月),516519。

3.C.B.卡拉威和J.C.莱斯特的叙述散文一代。人工智能139, 2(2002年8月),213252。

4.卡特,我。红风筝。阿勒昆出版社,切姆斯福德,埃塞克斯,英国,2007年。

5.Gatt, A., Portet, F., Reiter, E., Hunter, J., Mahamood, S., Moncur, W.,和Sripada, S.新生儿重症监护病房从数据到文本:使用NLG技术进行决策支持和信息管理。人工智能通信22, 3(2009年第三季度),153186。

6.Gatt, A.和Reiter, E. SimpleNLG:用于实际应用的实现引擎。在12个会议记录th欧洲自然语言生成研讨会(希腊雅典,3031年3月)。计算语言学协会,斯特劳兹堡,宾夕法尼亚州,2009,9093。

7.Gervás, P.计算方法讲故事和创造力。AI杂志30, 3(2009年秋季),4962。

8.Ghazvininejad, M., Shi, X., Choi, Y.和Knight, K.生成主题诗歌。在自然语言处理中的经验方法论文集(德克萨斯州奥斯汀,11月15日)。计算语言学协会,斯特劳兹堡,宾夕法尼亚州,2016,11831191。

9.Goldberg, E., Driedger, N.和Kittredge,罗德岛。使用自然语言处理来产生天气预报。IEEE专家9, 2(1994年4月),4553。

10.Hebblewhite, M.和Haydon, D.T.区分技术与生物学:生态学中GPS遥测数据使用的批判性评论。伦敦皇家学会哲学汇刊B:生物科学365, 1550(2010年7月),23032312。

11.帕内塔,K。神经网络和现代BI平台将发展数据和分析。Gartner, Inc.,斯坦福德,康涅狄格州,2017年1月16日;http://www.gartner.com/smarterwithgartner/nueral-networks-and-modern-bi-platforms-will-evolve-data-and-analytics/

12.Ponnamperuma, K., Siddharthan, A., Zeng, C., Mellish, C.和Wal, R. Tag2Blog:从卫星标签数据生成叙事。在51届会议记录计算语言学协会年会:系统演示(保加利亚索非亚,8月49日)。计算语言学协会,斯特劳兹堡,PA, 2013, 169174。

13.Portet, F., Reiter, E., Gatt, A., Hunter, J., Sripada, S., Freer, Y., Sykes, C.从新生儿重症监护数据中自动生成文本摘要。人工智能173, 78(2009年5月),789816。

14.Pschera,。动物互联网:自然与数字革命。新船出版社,纽约,2016年。

15.瑞特,e,戴尔,R。建立自然语言生成系统。剑桥大学出版社,英国剑桥,2000年。

16.瑞特,E.,斯里帕达,S.,亨特,J.,于,J.和戴维,I.在计算机生成的天气预报中选择单词。人工智能167, 12(2005年9月),137169。

17.瑞什,E.,卢金,s.m.,埃尔森,d.k.,和沃克,M.A.从叙事的语义表征中生成不同的故事叙述。在交互式数字故事国际会议论文集(土耳其伊斯坦布尔,11月69日)施普林格,纽约,2013年,192204。

18.关于写作即创造性设计的论述。在写作的科学。劳伦斯·埃尔鲍姆,希尔斯代尔,新泽西州,1996年。

19.斯特恩伯格,效力创造力手册。剑桥大学出版社,英国剑桥,1999年。

20.Theune, M., Faas, S., Heylen, D.K.J, and Nijholt, A.虚拟故事讲述者:由智能代理创造故事。在交互式数字故事和娱乐技术会议论文集, S. Göbel等,Eds。(德国达姆施塔特,2426年3月)。德国,2003,204215。

21.杜恩,M.,克拉伯斯,E.,德·皮杰珀,J.-R.;,Krahmer, E., and Odijk, J. From data to speech: A general approach.自然语言工程7, 1(2001年3月),4786。

22.Tintarev, N., Reiter, E., Black, R., Waller, A.和Reddington, J.个人讲故事:在野外为有复杂沟通需求的儿童使用自然语言生成。国际人机研究杂志92(2016年8月),116。

23.Tomkiewicz, s.m., Fuller, m.r., Kie, j.g., Bates, K.K.全球定位系统及其在动物行为和生态研究中的相关技术。伦敦皇家学会哲学汇刊B:生物科学365, 1550(2010年7月),21632176。

24.van derWal, R., Zeng, C., Heptinstall, D., Ponnamperuma, K., Mellish, C., Ben, S.和Siddharthan, A.从卫星标签数据中快速获得和传达生态见解的自动化数据分析:重新引入红鸢的案例研究。中44, 4(2015年10月),612623。

25.维尔马,A.,范德瓦尔,R.和费舍尔,A.显微镜和奇观:关于使用新的视觉技术来传播野生动物保护的复杂性。中44, 4(2015年10月),648660。

26.沃尔,J.,维特迈尔,G.,克林肯伯格,B.和道格拉斯-汉密尔顿,I.实时监测野生动物保护和研究的新机会。生态应用24, 4(2014年6月),593601。

27.温、郭宏源。,Gai, M., Mrki, N., Su, P.-H., Vandyke, D., and Young, S. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems. In自然语言处理的经验方法会议论文集(1721年9月,葡萄牙里斯本)。计算语言学协会,斯特劳兹堡,宾夕法尼亚州,2015年。

28.诗人严r.i:基于迭代抛光模式的递归神经网络自动诗歌创作。在人工智能国际联合会议论文集。纽约(915年7月)。AAAI出版社,帕洛阿尔托,加州,2016,22382244。

29.张欣、拉帕塔敏。基于递归神经网络的中文诗歌生成。在自然语言处理的经验方法会议论文集(卡塔尔多哈。2529年10月)。计算语言学协会,斯特劳兹堡,PA, 2014, 670680。

回到顶部

作者

Advaith Siddharthanadvaith.siddharthan@open.ac.uk)是英国米尔顿凯恩斯开放大学知识媒体研究所的一名读者

Kapila Ponnamperumakapila.ponnamperuma@arria.com)是英国苏格兰阿伯丁Arria NLG plc的首席自然语言工程师

克里斯插c.mellish@abdn.ac.uk),现已退休,在进行这项研究时,他是英国苏格兰阿伯丁大学的计算机科学教授。

陈曾zengc@hotmail.co.uk)在进行这项研究时,他是“博客鸟”项目的研究助理。

丹尼尔Heptinstalldjheptinstall@gmail.com)是英国政府联合自然保护委员会的高级国际生物多样性顾问。

安妮·罗宾逊annierobinson@abdn.ac.uk)在进行这项研究时,他是“博客鸟”项目的研究员。

斯图尔特Bennstuart.benn@rspb.org.uk)是北苏格兰皇家鸟类保护协会的通讯官员。

René范德瓦尔r.vanderwal@abdn.ac.uk)是英国苏格兰阿伯丁大学的生态学教授

回到顶部

脚注

一个。https://en.oxforddictionaries.com/definition/creative_writing


版权归作者所有。
向所有者/作者请求(重新)发布的许可

数字图书馆是由计算机协会出版的。版权所有©2019 ACM, Inc.


没有找到条目

登录全面存取
忘记密码? »创建ACM Web帐户
文章内容:
Baidu
map