数据挖掘技术一般用于检测数据中的序列或模式。本章中,我们将试图使数据遵循一种模式,在此模式中,一个或一系列事件可以通过一致的方式预测另一个数据点。
本文描述了在数据集中查找模式的不同方法:
我们可以在很多较大的数据集中查找模式。这涵盖了很多区域,比如混合人口的变化、使用手机的频率、高速公路质量衰退、年龄因素造成的事故等。不过我们能明确地感受到,有很多模式和序列正等待我们去发现。
我们可以通过使用R编程中的一些工具找到这些模式。大多数模式因约束条件而在一定程度上受到限制,如序列的有用时间。
我们来回顾一下确定数据中模式的方法:
模 型 类 别模型如何工作eclat此模型用于项集模式检测,其中购物车最为常见arules此模型确定数据集中的项目共现apriori此模型学习数据集中的关联规则TraMineR这是一个用于挖掘序列的R功能包
Eclat算法用于频繁项集的挖掘。这种情况下,我们寻找行为相似的模式,与之相对的是寻找不规则模式(与处理其他数据挖掘的方法类似)。
Algorithm通过数据中的交集来估算同时频繁出现事件候选项(如购物车项目)的支持度。然后通过对频繁候选项进行测试来证实数据集中的模式。
在R编程中使用Eclat就是使用arules功能包中的eclat函数。使用Eclat算法的R编程遵循了此处提出的约定:
> eclat(data,
parameter = NULL,
control = NULL)
<< · Back Index ·>>
上一篇