从局部的角度来看数据挖掘,到目前为止,主要的目的是模式发现。这和我们常听到的模式识别颇有不同。用雷达找飞机的工作,算是后者──我们知道飞机是我们要找的对象。但是在数据挖掘中,我们在通常情况下并不知道我们要找的东西是什么。在技术上,这也不能通过抽样的方法来做。模式是数据的局部结构,在这一部分,数据挖掘强调的方法是算法。数据一多,光凭人力是不能完全解决问题的,我们只有靠明确的指令让计算机一个一个帮我们找。那么在这里,我们就完全用不上统计方法吗?也不尽然。在提取训练样本(training sample)的时候,我们是可以把实验设计的想法放进去的。
中国计算机用户-赛迪网