数据挖掘的统计限制

常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。但是对数据挖掘的过度使用也会造成糟糕的情形。

2002年,美国布什政府提供了一项针对所有可获得的数据进行挖掘的计划,目的用于追踪恐怖活动,这些数据包括信用卡收据、酒店记录、旅行数据以及许多其他类型的情报。该计划被称为整体情报预警(Total Information Awareness,TIA)。TIA计划无疑在隐私倡导者当中受到了极大关注,虽然最终它并没有被国会通过,但其实我们并不清楚这种技术是否已被冠以其他名称而得以真正实施。

很多人关心的是,如果浏览了这么多数据,并且想从这些数据当中发现疑似的恐怖行为,那么难度最终就不会找出很多无辜的行为? 乃至虽然非法但不是恐怖行为的行为?这些发现会导致警察的登门造访甚至更糟的情形。答案取决于所定义行为的严密程度。统计学家已经发现了该问题的各种伪装形式,并且提出了一个理论:邦尼朗尼原理。

假定人们有一定量的数据并期望从该数据中找到某个特定类型的事件。即使数据完全随机,也可以期望该类型事件会发生。随着数据规模的增长,这类事件出现的数据也随之上升。任何随机数据往往都会有一些不同寻常的特征。这些特征看上去虽然很重要,但是实际上并不重要,除此之外,别无他由。从这个意义上说,这些事件的出现纯属“臆造”。统计学上有一个称为邦尼朗尼原理。

该原理给出了一个在统计学上可行的方法来避免在搜索数据时出现的大部分“臆造”正响应。该原理可以帮助我们避免将随机出现看成真正出现。在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。

以寻找恐怖分子为例,可以预期在任何时候都几乎没有恐怖分子在活动。按照邦尼朗尼原理,只需要寻找那些几乎不可能出现在随机数据中的罕见事件来发现恐怖分子即可。

本文来源:时光·协同
更多
相关文章
关注我们
媒介联系

Email:marketing@cicro.com

TEL:(8629)87579521

FAX:(8629)87579518