数据挖掘——序列

数据挖掘技术一般用于检测数据中的序列或模式。本章中,我们将试图使数据遵循一种模式,在此模式中,一个或一系列事件可以通过一致的方式预测另一个数据点。

本文描述了在数据集中查找模式的不同方法:

  • 查找模式
  • 在数据中查找模式
  • 约束条件

我们可以在很多较大的数据集中查找模式。这涵盖了很多区域,比如混合人口的变化、使用手机的频率、高速公路质量衰退、年龄因素造成的事故等。不过我们能明确地感受到,有很多模式和序列正等待我们去发现。

我们可以通过使用R编程中的一些工具找到这些模式。大多数模式因约束条件而在一定程度上受到限制,如序列的有用时间。

1 模式

我们来回顾一下确定数据中模式的方法:

模 型 类 别模型如何工作eclat此模型用于项集模式检测,其中购物车最为常见arules此模型确定数据集中的项目共现apriori此模型学习数据集中的关联规则TraMineR这是一个用于挖掘序列的R功能包

1.1 Eclat

Eclat算法用于频繁项集的挖掘。这种情况下,我们寻找行为相似的模式,与之相对的是寻找不规则模式(与处理其他数据挖掘的方法类似)。

Algorithm通过数据中的交集来估算同时频繁出现事件候选项(如购物车项目)的支持度。然后通过对频繁候选项进行测试来证实数据集中的模式。

1.用法

在R编程中使用Eclat就是使用arules功能包中的eclat函数。使用Eclat算法的R编程遵循了此处提出的约定:

> eclat(data,
parameter = NULL,
control = NULL)

<< · Back Index ·>>

发表回复

相关推荐

建設泰安師范附屬智慧校園,打造泰城西部教育新高地!

​“讓孩子們在傢門口享受優質教育,實現幼兒教育不出社區,義務教育不過千米。”近年來,泰安旅遊經濟開發區高度重視教育工作,...

· 41秒前

為何中國堅持引進輕木,一年竄7米的世界最輕樹的種植秘密!

新的種植技術正在引起全球范圍內的轟動!在中國,一種名為“世界最輕樹”的植物正迅速嶄露頭角,引起瞭無數矚目的目光。這種樹...

· 2分钟前

故事我国又收回一块领土,被占70年,现在3560人全部加入中国籍!

在《辛丑条约》签订之后,清朝政府不得不在内外压力下接连退让。在这种近乎屈辱的割地赔款中,清政府付出了沉重的代价,包括 ...

· 5分钟前

孕吐吐血怎麼辦 | 妊娠劇吐視頻會診

沈女士,33歲,這次打算生二胎,此次是她第二次懷孕。第一次懷孕的時候她吐得非常嚴重!基本上一直吐到生。6年前她剖腹產生瞭...

· 8分钟前

河流、河口和三角洲

什么是河流、河口和三角洲? 陆地上通过降雨、降雪和地下水产生的绝大多数淡水最终到达海洋。这些水通过溪流和河流向下流动 ...

· 9分钟前