垃圾邮件的“转化率”——一封不请自来的电子邮件最终引发“销售”的概率——是整个垃圾邮件价值主张的基础。然而,我们对这种批评行为的理解是相当有限的,文献缺乏关于其真正价值的定量研究。在本文中,我们提出了一种测量垃圾邮件转化率的方法。通过对现有僵尸网络基础设施的寄生渗透,我们分析了两种垃圾邮件活动:一种旨在传播恶意软件木马,另一种是营销在线药品。对于近5亿封垃圾邮件,我们确定了成功发送的数量,通过流行的反垃圾邮件过滤器的数量,吸引用户访问广告网站的数量,以及产生的“销售”和“感染”数量。
基于垃圾邮件的营销是一头奇怪的野兽。我们都收到过这样的广告:“极好的硬度是容易的!”但我们很少遇到一个人承认遵循这个提议并购买。然而,尽管多年来反垃圾邮件技术的大力部署,这些垃圾邮件仍然无情地不断堵塞互联网收件箱,这无可否认地证明了垃圾邮件制造者发现他们的活动有利可图。显然有人在买。但是有多少,多久一次,多少呢?
解开这些问题是很困难的至关重要的了解垃圾邮件的经济支持,以及可能存在的结构性弱点。不幸的是,垃圾邮件发送者不会提交季度财务报告,而且其活动的地下性质使第三方数据收集成为最大的挑战。由于缺乏实证基础,垃圾邮件的捍卫者往往只能猜测垃圾邮件活动的成功程度和盈利程度。例如,IBM的Joshua Corman曾被广泛引用,他声称仅风暴蠕虫发送的垃圾邮件就“每天产生数百万美元”。1虽然这种说法实际上可能是真的,但我们不知道有任何公开数据或方法能够证实或驳斥它。
关键问题是我们对垃圾邮件价值定位的三个基本参数的有限可见性:发送垃圾邮件的成本,由“转化率”(发送的电子邮件最终产生“销售”的概率)和每笔销售的边际利润抵消。第一个和最后一个是独立的,至少可以根据第三方垃圾邮件发送者收取的费用,以及各种互联网营销“联盟程序”提供的定价和毛利率进行估计。一个然而,转化率从根本上取决于数亿互联网用户面对新的垃圾邮件时的集体行动,而这些垃圾邮件的获取难度要大得多。虽然坊间有一些数据,但我们不知道垃圾邮件转化率的任何有据可查的测量方法。b
在某种程度上,这个问题是方法论的问题。目前还没有明显的方法可以间接测量垃圾邮件的转化率。因此,提取这些数据的唯一明显方法是建立一个电子商务网站,通过垃圾邮件进行营销,然后记录销售数量。此外,为了完全真实地捕捉垃圾邮件发送者的经历,这样的研究还必须模拟他们使用非法僵尸网络来分发电子邮件和代理用户响应。实际上,衡量垃圾邮件的最好方法就是成为一个垃圾邮件制造者。
在这篇论文中,我们已经有效地进行了这项研究回避与发送垃圾邮件相关的明显的法律和道德问题。c关键的是,我们的研究利用了一个现有的垃圾邮件的僵尸网络。通过寄生渗透僵尸网络,我们说服它修改垃圾邮件的一个子集已经发送,从而将任何感兴趣的收件人引导到我们控制下的网站,而不是垃圾邮件发送者的网站。反过来,我们的网站提供了垃圾邮件发送者自己网站的“防病毒”版本,删除了可能会危害受害者系统或接收敏感个人信息(如姓名、地址或信用卡信息)的功能。
使用这种方法,我们记录了三次垃圾邮件活动,包括超过4.69亿封电子邮件。我们确定了有多少垃圾邮件被成功发送,有多少垃圾邮件被流行的反垃圾邮件解决方案过滤,以及最重要的是,有多少用户“点击”到被广告的网站(反应率)以及其中有多少进展为“销售”或“感染”(转化率).
本文其余部分的结构如下。第2节描述了垃圾邮件的经济基础,并回顾了该领域以前的研究。第4节描述了我们针对僵尸网络渗透的实验方法。第5节描述了我们的垃圾邮件过滤和转换结果,第6节分析了黑名单对垃圾邮件发送的影响,第7节分析了对垃圾邮件响应的可能影响。我们在第8节综合我们的发现并得出结论。
直接营销有着丰富的历史,可以追溯到19世纪第一批邮购目录的分发。直接营销之所以如此吸引人,是因为人们可以直接衡量其投资回报。例如,直销函件协会报告称,直销函件销售活动的平均回复率为2.15%。4同时,直接邮件的粗略估计每千成本针对1000个目标,处理、生产和交付材料的成本在250美元到1000美元之间。因此,按照这些估计,发送100万份请求可能需要25万美元,而这些请求可能会产生21,500份答复。开发这些潜在客户的成本(每个大约12美元)可以直接计算,假设每个潜在客户完成了一个平均价值的销售,我们可以直接将这个收入与营销成本相平衡,从而确定活动的盈利能力。只要转化率和每笔销售的边际利润的乘积超过边际配送成本,活动就是有利可图的。
鉴于这种潜在的价值主张,在电子邮件本身之后,大量直接电子邮件营销迅速出现也就不足为奇了。发送一封电子邮件的边际成本很小,因此,即使转化率可以忽略不计,基于电子邮件的活动也可以盈利。不幸的是,这种动态的一个反常的副产品是,发送尽可能多的垃圾邮件可能会使利润最大化。8
虽然垃圾邮件长期以来一直被认为是一个经济问题,但直到最近,人们才在对垃圾邮件经济学建模和从垃圾邮件发送者的角度理解其价值主张方面做出了重大努力。垃圾邮件发送者很少谈论他们活动本身的财务方面,尽管这样的账户确实存在。10,13Judge等人推测回复率低至0.000001就足以维持盈利能力。12
然而,与我们最密切相关的工作是几篇关于“股票垃圾邮件”的论文。5,7,9“股票垃圾邮件”指的是对低成交量的证券进行正面“兜售”,以操纵其价格,从而从股票的现有头寸中获利的行为。垃圾股票的区别在于,它是通过操纵价格而不是通过出售来变现的。因此,了解盈利能力并不需要衡量转化率。相反,可以通过将股票垃圾邮件数量与相关股票的交易量和价格变化相关联来推断盈利能力。
本文的测量是利用风暴僵尸网络及其垃圾邮件代理进行的。Storm是一个通过垃圾邮件传播的点对点僵尸网络(通常是通过指示收件人从网站下载可执行文件)。
风暴层次结构:风暴僵尸网络在发送垃圾邮件时主要使用三类机器。工人机器人发出工作请求,并在收到订单后按照请求发送垃圾邮件。代理机器人充当工作人员和主服务器之间的通道。最后,主服务器向worker提供命令并接收它们的状态报告。根据我们的经验,主服务器数量非常少(通常托管在所谓的“防弹”托管中心),这些服务器很可能是由botmaster直接管理的。
然而,工人和代理人之间的区别是自动确定的。当风暴第一次感染一个主机时,它会测试它是否可以被外部连接到。如果是这样,那么它就有资格成为代理人。如果不是,那么它就变成了一个工人。作为我们实验的一部分,我们运行的所有机器人都以代理机器人的形式存在,被僵尸主机用来在主服务器和负责实际发送垃圾邮件的工作机器人之间传递命令。
我们的测量方法是基于僵尸网络渗透也就是说,我们潜入僵尸网络的“命令和控制”(C&C)网络,被动地观察它分发的与垃圾邮件相关的命令和数据,并在适当的情况下,主动地改变传输中的这些消息的单个元素。Storm的架构特别适合渗透,因为代理机器人,通过设计,干涉单个工作机器人与指导它们的主服务器之间的通信。此外,由于Storm不加区分地破坏主机(通常使用通过社会工程网站分发的恶意软件),它可以直接根据需要创建一个代理机器人,用Storm恶意软件感染我们控制下的全球可达主机。
图1还说明了我们的基本测量基础设施。在核心,我们在一个受控制的虚拟机环境中实例化了8个未经修改的Storm代理机器人。然后,这些机器人的网络流量被路由到一个集中的网关,提供了一种阻止意外行为的方法(例如,参与DDoS攻击)和一个插入点,用于解析C&C消息,并在它们从代理传递到工作者时“重写”它们。最关键的是,通过仔细重写主服务器发送的垃圾邮件模板和字典条目,我们安排工作机器人用我们选择的url替换垃圾邮件中预期的站点链接。根据这一基本能力,我们综合实验来测量几个大型垃圾邮件活动的点击率和转化率。
中华商务协议修改:我们的运行时C&C协议重写器由两个组件组成。自定义路由器将潜在的C&C通信量重定向到固定的IP地址和端口,其中用户空间代理服务器接受传入的连接并模拟代理机器人。该服务器反过来将连接转发回路由器,路由器将流量重定向到预期的代理机器人。模板、字典、电子邮件目标列表支持独立安装改写规则。重写器会记录工作人员和代理机器人之间、代理机器人和主服务器之间的所有C&C通信,以及对通信的所有重写操作。
测量垃圾邮件交付:为了评估垃圾邮件在用户收件箱发送路径上的过滤效果,我们建立了一个测试电子邮件帐户集合,并安排风暴工人机器人向这些帐户发送垃圾邮件。这些帐户是在几个不同的有利位置创建的,从中我们可以评估不同的电子邮件过滤方法的有效性。当工作机器人向主服务器报告成功或失败时,我们会删除所有关于我们电子邮件地址的成功报告,以向botmaster隐藏我们的修改。
我们定期调查每个电子邮件帐户(包括收件箱和“垃圾/垃圾邮件”文件夹)收到的消息,并记录它们的时间戳,过滤掉不属于这个实验的任何消息。
衡量点击率和转化率:要评估收到垃圾邮件的用户实际访问广告网站的频率,需要监控广告网站本身。由于监测不在我们控制范围内的地点通常是不切实际的,所以我们使用了我们的僵尸网络渗透方法安排一部分Storm的垃圾广告网站来代替我们创建的。
我们特别关注了两种类型的Storm垃圾邮件活动,一种是旨在传播Storm恶意软件的自我传播活动(通常是打着为电子明信片网站做广告的幌子),另一种是为药店网站做广告。这是两个最受欢迎的风暴垃圾广告活动,代表了超过40%的风暴最近的活动。11我们把Storm自己网站的链接换成了我们控制下的网站的链接,截图如下所示图2.
这些网站在两个重要的方面被“削弱”了:医药网站不接受任何个人或支付信息,自传播网站宣传一个完全良性的可执行文件,它只会打电话回家记录执行和退出。
4.1.测量伦理
我们一直在谨慎地设计实验,我们认为这些实验既符合美国现行的法律原则,也从根本上符合伦理。虽然全面描述现行安全措施所处的复杂法律环境超出了本文的范围,但我们相信,我们工作的道德基础更容易解释:我们严格减少伤害.首先,我们的仪表代理机器人不会造成任何新的伤害。也就是说,如果没有我们的参与,同一组用户将收到由同一工作机器人发送的同一组垃圾邮件。Storm是一个大型的自组织系统,当一个代理失效时,它的工人机器人会自动切换到其他空闲的代理(确实,当我们的代理失效时,我们会看到工人快速切换)。第二,我们的代理人是被动的行为者,他们不会参与任何本质上令人反感的行为;它们不会发送垃圾邮件,不会危害主机,甚至不会异步地联系工作机器人。实际上,它们唯一的功能就是在发出请求的工作机器人和提供响应的主服务器之间提供一条通道。最后,当我们修改传送中的C&C消息时,这些行动本身就会严格减少伤害。点击这些更改后的垃圾邮件的用户将被引导到我们的一个无害的二重身网站。不同的网站正常情况下我们的网站不会让用户感染恶意软件,也不会收集用户的信用卡信息。因此,任何用户都不应该因为我们的参与而收到更多的垃圾邮件,但有些用户会收到不那么危险的垃圾邮件。
不用说,我们不鼓励任何人在没有充分准备和谨慎的情况下重新进行我们的实验。与数千台正在发送数百万垃圾信息的受损机器进行交互是一个非常微妙的过程,虽然我们鼓励其他研究人员在我们的工作的基础上继续进行,但我们要求,这些实验只能由合格的专业人员进行,他们不需要比这里列出的那些人更少的预谋性、法律咨询或保护措施。
现在我们展示重写实验的总体结果。我们首先描述C&C重写代理观察到的垃圾邮件工作负载。然后,我们描述了在从工作机器人到用户收件箱的传递路径上,过滤垃圾邮件工作负载的效果,以及浏览广告网站并对其中的内容采取行动的用户数量。
活动数据集:我们的研究涵盖了总结的三种垃圾邮件活动表1.“药店”活动是一个持续26天(19天活跃)的在线药店广告风暴活动的样本。“明信片”和“愚人节”活动是两个不同的、连续的自传播活动实例,它们试图在明信片软件的幌子下在用户的机器上安装可执行文件。对于每个活动,图3显示每小时分配给机器人发送邮件的消息数。
Storm的作者在利用用户的文化和社会期望方面表现出了极大的狡诈,在4月1日左右推出了一个有限的愚人节活动。我们的网站被设计成模拟早期的明信片活动,因此我们的数据可能不能完美地反映该活动的用户行为,但两者在本质上足够相似,因此我们推测任何影响都是很小的。
我们用8个代理机器人开始实验,其中7个活到了最后。图4显示代理机器人工作负载的时间轴。连接到每个代理的工人数量在所有代理中大致相同(平均23个工人机器人),但显示出与新的自传播活动相对应的强烈峰值。在高峰时期,有539个工作机器人同时连接到我们的代理。
大多数工人只连接到我们的代理一次:78%的工人只连接到我们的代理一次,92%最多连接两次,99%最多连接五次。最多产的工人IP地址,一个位于美国北卡罗莱纳州的学术网络主机,联系了我们的代理269次;进一步的检查发现这是19个个体感染的NAT出口点。相反,大多数工人不会连接到一个以上的代理:81%的工人只连接到一个代理,12%连接到两个,3%连接到四个,4%连接到五个或更多的代理,90个工人机器人连接到我们所有的代理。平均而言,工人机器人保持连接的时间为40分钟,但超过40%的工人连接的时间不到一分钟。最长的连接持续了81小时。
工作人员被要求向83,665,479个地址发送明信片垃圾邮件,其中有749,901,820个地址是唯一的(89.53%)。愚人节活动的目标是38,651,124个地址,其中36,909,792(95.49%)是唯一的。医药垃圾邮件针对347,590,389个地址,其中213,761,147(61.50%)是唯一的。
垃圾邮件转换管道:从概念上讲,我们将垃圾邮件转换分解为一个具有五个“过滤”阶段的管道图5说明该管道并显示每个阶段的过滤类型。该管道首先将目标电子邮件地址的传递列表发送给工作机器人(阶段A)。由于各种各样的原因,工作机器人将只成功地将其消息的一部分传递给MTA(阶段B)。此时,网站上的垃圾邮件过滤器将正确地识别许多消息为垃圾邮件,并将它们丢弃或放置在垃圾邮件文件夹中。剩下的邮件通过了挑战,并以有效邮件的形式出现在用户的收件箱中(阶段C)。用户可以删除或忽略它们,但有些用户会对垃圾邮件采取行动,点击邮件中的URL,并访问广告网站(阶段D)。这些用户可能会浏览网站,但只有一小部分“转换”垃圾邮件(阶段E),通过尝试购买产品(药房)或下载和运行可执行文件(自我传播)。
我们将垃圾邮件流分为两部分,“爬虫”和“转换器”,以区分真实用户和伪装用户。例如,给工人的送货清单包含蜜罐电子邮件地址。工作人员向这些“蜜罐”发送垃圾邮件,然后这些“蜜罐”使用爬虫程序访问消息中URL所引用的网站。因为我们想要测量实际用户的垃圾邮件转化率,所以我们分离出了爬虫等自动化过程的影响,只包括我们认为是用户产生的点击。
表2显示过滤在每个阶段的转换管道的影响,为自我传播和药物运动。目标地址的数量(A)仅仅是在测量期间工人机器人收到的交付列表上的地址总数,不包括我们注入的测试地址。
通过依赖工作人员生成的传递报告,我们可以得到传递到邮件服务器(B)的消息数量的估计。发送到用户收件箱的消息数量(C)是一个更难估计的值。我们不知道每个邮件提供商使用了什么垃圾邮件过滤(如果有的话),然后每个用户单独使用了什么,因此无法合理地估计这个总数。但是,可以为各个邮件提供者或垃圾邮件过滤器确定这个数字。我们在这个实验中使用的三个邮件提供者和垃圾邮件过滤设备有一种将发送的邮件分成“垃圾”和收件箱类别的方法。表3给出了免费电子邮件提供商向用户收件箱发送的邮件数量,这两家公司总共占Storm目标地址的16.5% (表3),以及本署的商业垃圾邮件过滤设备。需要注意的是,这些结果来自于短时间内的一次垃圾邮件活动,不应用作衡量每个服务的相对有效性的指标。也就是说,我们观察到,流行的网络邮件提供商在过滤我们观察到的活动方面都做得非常好,尽管很明显他们使用了不同的方法(例如,Hotmail在邮件服务器层面拒绝大部分的Storm垃圾邮件,而Gmail接受了很大一部分,只是稍后作为垃圾邮件进行过滤)。
访问次数(D)是我们模拟药房和明信片站点的访问次数,不包括任何爬虫程序。我们注意到,爬虫请求来自一小部分主机,但占到我们网站所有请求的大多数。例如,对于药店站点,在使用有效唯一标识符访问站点的11,720个唯一IP地址中,只有10.2%被列入了爬虫程序黑名单。相比之下,55.3%的请求中使用的唯一标识符来自这些爬虫程序。对于所有发出的非图像请求,87.43%是由黑名单IP地址发出的。
转换次数(E)是药店网站购买页面的访问次数,或假冒自传播程序的执行次数。
我们对Storm垃圾邮件活动的结果显示,垃圾邮件的转化率相当低。例如,在3.5亿封制药活动邮件中,只有28封转化(而且没有一个爬虫程序完成购买,所以爬虫程序过滤中的错误起不到任何作用)。然而,非常低的转化率并不意味着低收入或盈利能力。我们将在第8节进一步讨论转化率对垃圾邮件转换命题的影响。
Time-to-Click:转换管道显示了最终导致广告网站访问的垃圾邮件比例。但是,它不能反映发送垃圾邮件和用户点击垃圾邮件之间的延迟。用户行动的时间越长,诈骗主机基础设施需要保持可用以从垃圾邮件中获取收入的时间就越长。2换句话说,一个垃圾广告网站需要上线多久才能获得潜在收入?
图6显示了访问药房站点的“点击时间”的累积分布。点击时间是从发送垃圾邮件(当代理将垃圾邮件工作负载转发给工作机器人时)到用户“点击”垃圾邮件中的URL(当主机第一次访问Web站点时)的时间。该图显示了所有用户访问的三种分布,访问购买页面的用户(“转换器”)和自动爬虫(14716次这样的访问)。
用户分布和爬虫分布表现出截然不同的行为。几乎30%的爬虫访问是在20秒内的工人机器人发送垃圾邮件。这种行为表明,这些爬虫程序被配置为在发送垃圾邮件时立即扫描发布了广告的站点。另外10%的爬虫访问的点击时间为1天,这表明爬虫被配置为定期批量访问垃圾邮件发布的网站。相比之下,只有10%的用户会立即访问垃圾邮件url,其余的分布是平滑的,没有任何明显的模式。所有用户和“转换”用户的分布大致相似,这表明点击时间和访问网站的用户是否会转换之间没有什么关联。虽然大多数用户访问发生在最初的24小时内,但10%的点击时间是在一周到一个月之间,这表明广告网站需要长期可用才能获得全部的收入潜力。
对垃圾邮件发送效果的一个主要影响是,许多isp使用基于地址的黑名单来拒绝以前被报告为来源垃圾邮件的主机的电子邮件。为了评估黑名单的影响,在我们的实验过程中,我们监测复合屏蔽列表(CBL),6我们一些机构的经营者使用的黑名单来源。在任何给定的时间,CBL都会列出4600万个向各种垃圾邮件发送电子邮件的IP地址。从2008年3月21日到4月2日,从药物活动开始到愚人节活动结束,我们能够监测CBL。
我们每隔半小时下载当前的CBL黑名单,使我们能够确定在我们的测量中哪些工作机器人出现在列表中,以及它们出现在列表中与它们的僵尸网络活动之间的关系。在40864名发送交付报告的员工中,81%的人出现在CBL上。在那些在某个时间点出现在列表上的用户中,77%是在我们观察他们收到垃圾邮件指令之前出现在列表上的,比我们观察到的时间早4.4天(中位数)。在那些最初没有被列出但随后又被列出的垃圾邮件中,直到被列出的中位数间隔是1.5小时,这强烈表明我们观察到他们被指示进行的垃圾邮件活动很快导致了他们的检测和黑名单。在从未出现在名单上的主机中,超过75%的主机从未报告过成功发送垃圾邮件,这表明他们没有上榜的原因只是因为他们无法有效地惹恼任何人。
我们预计,黑名单对垃圾邮件发送的影响很大程度上取决于给定电子邮件中的目标域名,因为一些域名将黑名单提要(如CBL)合并到其邮件服务器操作中,而其他域名则没有。为了探究这种效应,图7绘制每个域的交付率:工作人员报告的成功交付到该域的垃圾邮件数量除以试图提交到该域的数量。的x-axis显示了在CBL中出现之前由工人发送的垃圾邮件的交付速率,以及y-轴表示CBL出现后的速率。我们将plot限制为10,879个域,其中工作人员试图交付至少1,000个垃圾邮件。我们将两个不同活动的交付率绘制为单独的圆圈,尽管它们之间的整体属性没有变化。每个绘制圆的半径与交付尝试的数量成比例,最大的对应于域,如hotmail.com,yahoo.com,gmail.com.
从图中我们可以清楚地看到不同域的一系列黑名单行为。一些应用了其他有效的反垃圾邮件过滤,表明它们出现在原始邮件附近,甚至在出现在CBL黑名单之前没有通过。一些人大量使用CBL或类似的列表(y-轴接近零,但是x-轴大于零),而其他人对黑名单不敏感(那些位于对角线上的)。由于点主要位于对角线以下,我们可以看到,黑名单或与持续的垃圾邮件活动相关的其他一些影响(例如,学习内容签名)降低了大多数域的交付率。退市后再重新上市可能是这里所看到的点分布的部分原因;对角线上的那几个点可能只是由于统计上的波动。最后,右上方的点云表示有大量的域,这些域没有被单独针对,但共同组成了一个庞大的群体,似乎没有采用有效的反垃圾邮件措施。
现在我们来初步看看影响对垃圾邮件响应的可能因素。目前,我们将分析局限于粗粒度的效果。
我们首先绘制出对我们监控的垃圾邮件活动进行“转换”的主机的地理分布。图8映射执行模拟自传播程序的541个主机的位置,以及访问模拟药房站点的购买页面的28个主机的位置。这张地图显示了世界各地的用户对垃圾邮件的回应。
图9根据流行的国家代码电子邮件域顶级域名来查看不同国家之间的回复率差异。允许包含通用顶级域名,如com
,对于每个电子邮件地址,我们认为它是其邮件服务器所在国家的成员;我们删除了涉及多个国家的域名,将其归类为“国际”域名。的x-轴表示针对特定国家的邮件数量(对数尺度),而y-axis表示在我们的Web服务器上记录的响应数量(也是对数缩放的),对应于管道中的阶段A和D (图5),分别。实线反映了10的回复率4虚线表示的是103.毫不奇怪,我们发现美国的垃圾邮件攻击目标比其他任何国家都要多。此外,印度、法国和美国主导了反应。就反应而言利率然而,印度、巴基斯坦和保加利亚的回复率高于其他任何国家(离对角线最远)。美国虽然是主要的目标和响应国,但最终响应率是所有国家中最低的,其次是日本和台湾。
然而,回复率最高的国家似乎并没有反映出这些国家的用户对特定垃圾邮件产品有更高的兴趣。图10绘制出最突出的国家对自我传播和药店垃圾邮件的回应率。这两种比率的中位数是0.38(对角线)。我们可以看到,印度和巴基斯坦实际上呈现出几乎完全相同的比例(右上角),保加利亚也相差不远。事实上,只有少数顶级域名呈现出显著不同的比例,包括美国和法国,这两个国家除印度外有较高的应答者人数;美国用户对自我传播垃圾邮件的回应远远多于药品垃圾邮件,而法国用户则相反。这些结果表明,在很大程度上,每个国家的响应率差异是由于结构原因(垃圾邮件过滤质量,用户教育),而不是不同程度的文化或国家利益的特定承诺或产品的垃圾邮件。
本文描述了我们认为是第一次大规模定量研究垃圾邮件转换。我们开发了一种方法,利用僵尸网络渗透来间接控制垃圾邮件,这样用户在这些邮件上的点击就会被带到我们控制下的复制网站。使用这种方法,我们测量了近5亿条垃圾邮件信息,包括三个主要活动,并定量地描述了发送过程和转化率。
我们将是第一个承认这些结果只代表一个数据点,并不一定代表整个垃圾邮件。不同的活动,使用不同的策略,营销不同的产品,无疑会产生不同的结果。事实上,我们谨慎强烈而研究人员使用我们测量的这些基于storm的活动的转化率来证明在任何其他情况下的假设。与此同时,人们很容易猜测我们所衡量的数字可能会带来什么的意思是.我们屈服于下面的诱惑,并理解到我们的推测在此时很少能被经验验证。
在26天的时间里,收到了近3.5亿封电子邮件,只有28封邮件的转化率低于0.00001%。在这些产品中,除了一款以外,其他都是男性增强产品,平均购买价格接近100美元。这些转换合计可带来2,731.88元的收入,在测量期间每天的收入略高于100元,在活动活跃期间则为每天140元。然而,我们的研究只涉及到整个风暴网络的一小部分,根据我们代理的工人机器人的比例,我们估计约为1.5%。因此,Storm的药房活动每天的总收益可能接近7000美元(或9500美元在活动期间)。根据同样的逻辑,我们估计Storm的自传播活动每天可以产生3500到8500个新机器人。
假设我们的测量结果随着时间的推移具有代表性(在处理这样的小样本时,这是一个公认的危险的假设),我们可以推断,如果它以相同的速度持续发送,风暴产生的制药垃圾邮件将在一年内产生大约350万美元的收入。如果垃圾广告的药店有回头率,这个数字可能会更高,比“每天数百万美元”少一点,但肯定是一个健康的企业。
下一个显而易见的问题是,“这些收入中有多少是利润?”这里的情况就更不明朗了。首先,我们必须考虑在销售中实际收回了多少总收入。假设药房活动为附属项目带来了流量(有非常充分的理由相信这一点),那么总营收很可能在附属项目和项目之间分配(根据我们之前的估计,每年净营收为175万美元)。接下来,我们必须减去业务成本。这些费用包括一些附带费用(域名注册、防弹托管费等),这些基本上是固定的沉没成本,以及分发垃圾邮件本身的成本。
坊间报道认为零售垃圾邮件的价格略低于80美元/百万。14在我们对一些垃圾邮件出租服务广告的调查中,我们发现投递到美国地址的价格从每百万美元70美元到100美元以上不等,大量投递还可以获得大幅折扣。这一成本比合法的商业邮件收费低一个数量级,但仍是一笔可观的开销;发送3.5亿封电子邮件的成本超过2.5万美元。事实上,考虑到我们估计的净收入,零售垃圾邮件递送只有在价格再便宜20倍的情况下才有意义。
然而,“风暴”继续分发药品垃圾邮件,这表明它实际上是有利可图的。一种解释是,Storm的主子是垂直整合的,提供Storm药品垃圾邮件的人不是别人,正是Storm自己的运营商(也就是说,Storm不会向第三方提供这些垃圾邮件来换取费用)。有一些证据可以证明这一点,因为在自我传播和制药活动之间目标电子邮件域名的分布几乎是相同的。由于自传播活动从根本上说必须由僵尸网络的所有者来运行,这表明药品垃圾邮件的提供者是同一个人。从Storm主机的本地硬盘中收集电子邮件地址也可以得出类似的结论。这些电子邮件地址随后出现在药房活动和自我传播活动的目标地址列表中。此外,这些行为在Storm发布的任何其他(较小的)活动中都没有发现(这表明这些实际上可能是按服务付费的发布安排)。如果是这样的话,那么分发的成本很大程度上是用于开发和维护僵尸网络软件本身的劳动力成本。虽然我们无法提供关于这个成本的任何有意义的估计(因为我们不知道Storm是在哪个劳动力市场开发的),但我们估计这大概是2到3个优秀程序员的成本。
如果这个假设是正确的,那么这个假设是令人振奋的,因为它表明第三方零售垃圾邮件分发市场的规模和效率还不足以产生有竞争力的价格,因此,有利可图的垃圾邮件活动需要组织能够组装完整的“汤到坚果”团队。换句话说,垃圾邮件的利润空间(至少对这个药品广告来说是如此)可能非常微薄,以至于垃圾邮件发送者必须对他们的广告如何运行的细节非常敏感,并且在经济上容易受到新的防御措施的影响。
这是我们团队进行过的最复杂的测量研究之一,如果没有大量支持人员的贡献,这是不可能的。在此,我们感谢他们深刻的反馈和对我们工作的个人贡献。
乔丹·海斯在网站域名注册方面提供了决定性的重要帮助。peterblair, Paul Karkas, Jamie Knight和Garrick Lau在Tucows支持这个活动(一旦我们说服他们我们不是垃圾邮件发送者),并允许我们使用有信誉的注册商。兰迪·布什提供了有关互联网运营和政策问题的全面指导和帮助,而艾琳·肯尼利则在法律问题上为我们提供建议。Brian Kantor建立和管理我们的DNS、Web和SMTP服务器,Scott Campbell和Stephen Chan为我们执行大量的DNS查找。jeff Poskanzer提供数据访问来调试我们的实验,Stephen Chenette提供技术支持,Fallon Chen是我们内部的平面设计师。Bill Young和Gregory Ruiz-Ade在UCSD的CSE部门建立了目标电子邮件账户。特别感谢UCSD ACT的Gabriel Lawrence和Jim Madden在UCSD系统和网络上支持这项活动。最后,我们感谢匿名评论者的时间和评论。
这项工作得到了美国国家科学基金会NSF-0433702和NSF-0433668的资助,以及来自思科、微软、惠普、英特尔、VMWare、ESnet、劳伦斯伯克利国家实验室和加州大学圣地亚哥分校网络系统中心的慷慨研究、操作和实物支持。本材料中表达的任何意见、发现、结论或建议都是作者或发起人的意见,并不一定反映这些组织的观点。
1.阿卡斯,C.风暴虫“每天赚几百万”。http://www.pcw.co.uk/personal-computer-world/news/2209293/strom-worm-making-millions-day, 2008年2月。
2.Anderson, d.s., Fleizach, C., Savage, S., Voelker, gm . Spamscatter:描述互联网诈骗主机基础设施。在USENIX安全研讨会论文集(波士顿,马萨诸塞州,2007年8月)。
3.难以捉摸的垃圾邮件发送地球链接在漫长的追逐。http://online.wsj.com/article_email/SB105225593382372600.html, 2003年5月。
4.d . m .协会。DMA发布第五份年度“回应率趋势报告”。http://www.the-dma.org/cgi/disppressrelease?article=1008, 2007年10月。
5.Boehme, R., Ho, T.股票垃圾邮件对金融市场的影响。在第五届信息安全经济学研讨会论文集(2006年6月)。
6.复合阻塞列表(CBL)。http://cbl.abuseat.org/, 2008年3月。
7.弗里德,L.,齐特林,J.斯帕姆的著作:股票卖出和相应的市场活动的证据。伯克曼中心研究刊物, 2006年。
8.古德曼,J., Rounthwaite, R.阻止发送垃圾邮件。第五届美国计算机学会电子商务会议论文集(2004), 3039。
9.汉克,M.,豪泽,F.关于股票垃圾邮件的影响。j . Financ。马克。11, 1(2008), 5783。
10.前垃圾邮件发送者柯克:“我知道我要下地狱了。”http://www.macworld.com/article/58997/2007/07/spammer.html, 2007年7月。
11.Kreibich, C., Kanich, C., Levchenko, K., Enright, B., volker, gm, Paxson, V., Savage, S.在垃圾邮件竞选过程中。在第一届USENIX大型漏洞和紧急威胁研讨会(LEET'08), 2008年4月。
12.法官,W.Y.P, Alperovitch D.理解和扭转垃圾邮件的盈利模式。在资讯保安经济学研讨会(WEIS 2005)(波士顿,马萨诸塞州,美国,2005年6月)。
13.所有的垃圾邮件发送者都去地狱(张贴到funsec列表)。http://www.mail-archive.com/funsec%40linuxbox.org/msg03346.html, 2007年7月。
14.竞争可能正在推动僵尸网络和垃圾邮件的激增。http://www.darkreading.com/document.asp?doc_id=142690, 200年
a.我们粗略的调查表明,制药附属项目的佣金往往徘徊在40% - 50%左右,而零售据估计,发送垃圾邮件的成本在每百万美元80美元以下。14
b.这些轶事中的最著名的数字来自于华尔街日报》2003年对霍华德·卡马克(又名“水牛Spammer”)的调查显示,他获得了0.00036的转化率的1000万信息营销一种草药兴奋剂。3.
c.我们是根据确保的道德准则进行研究的中性行为让用户永远不会因为我们的活动而变得更差,同时严格减少伤害适用于用户财产受到威胁的情况。
这篇论文的前一个版本发表在第十五届ACM计算机与通信安全会议论文集, 2008年10月。
DOI: http://doi.acm.org/10.1145/1562164.1562190
图1。风暴垃圾邮件活动数据流和我们的测量和重写基础架构(第4节)。(1)工作人员通过代理请求垃圾邮件任务,(2)代理从主服务器转发垃圾邮件工作负载响应,(3)工作人员发送垃圾邮件,(4)返回发送报告。我们的基础设施渗透到工人和代理之间的C&C渠道。
图7。在工作机器人出现在黑名单之前(x轴)和出现之后(y轴),每个域的交付率的变化。每个圆圈代表一个至少有1000个可分析投递目标的领域,其半径与投递次数成比例。
图8。对垃圾邮件进行“转换”的主机的地理位置:执行模拟自传播程序的541台主机(浅灰色),访问模拟药房网站购买页面的28台主机(黑色)。
表2。在垃圾邮件转换管道的每个阶段进行过滤,用于自传播和制药活动。百分比是指相对于A阶段的转化率。
表3。发送到用户收件箱的邮件数量,占免费电子邮件提供商和商业垃圾邮件过滤设备为测试帐户注入的邮件数量的一小部分。Barracuda电器的测试账号没有包含在明信片活动中。
©2009 acm 0001-0782/09/0900 $10.00
允许制作本作品的全部或部分的数字或硬拷贝用于个人或课堂使用,但前提是该拷贝不是为了盈利或商业利益而制作或分发,并且该拷贝在第一页上带有本通知和完整引用。以其他方式复制、重新发布、在服务器上发布或重新分发到列表,需要事先获得特定的许可和/或付费。
数字图书馆是由计算机协会出版的。版权所有©2009 ACM有限公司
没有发现记录