AaronSpark 发表于 2005-9-29 09:53

数据挖掘技术和算法

本帖最后由 wdhd 于 2016-8-31 15:06 编辑

  技术和算法

  技术:概念方法

  算法:一步一步具体实现的细节

  不同的目标要调用不同的技术

  数据挖掘根据其目标分为说明性(Prescriptive)和描述性 (Descriptive)数据挖掘两种

  不同的Data Type调用不同技术

  三种数据挖掘技术

  自动聚集检测;决策树;神经网络

  原因: 大量的商业软件应用

  覆盖了数据挖掘一个较广的范围

  直接数据挖掘目标是预言,估值,分类,预定义目标变量的特征行为

  神经元网络;决策树

  间接数据挖掘:没有目标变量被预言,目的是发现整个数据集的结构

  聚集检测

  自动聚集检测

  方法

  K-均值是讲整个数据集分为K个聚集的算法。

  K-均值聚集检测如何工作

  随机选取K个记录,作为种子节点;

  对剩余的记录集合,计算每个记录与K个种子节点的距离,将每个记录归到最近的那个种子节点,这样整个记录集初次划分为K个聚集;

  对每个聚集,计算聚集的质心(聚集中心点);

  以每个质心为种子节点,重复上述步骤,直至聚集不再改变。

  Consequences of Choosing Clustering

  选择距离函数

  选择合适的聚集数

  对聚集的解释

  构造决策树

  可视化看聚集如何受输入变量的影响

  单变量测试

  什么时候使用聚集检测

  决策树

  决策树分类

  决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。

  一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的overfitting。

  决策树如何工作

  决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。

  首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。

  决策树如何构建

  通过递归分割的过程构建决策树。

  寻找初始分裂

  整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。

  决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。

  树增长到一棵完整的树

  重复第一步,直至每个叶节点内的记录都属于同一类。

  数据的修剪

  选择决策树的结果

  处理输入变量

  树和规则

  选择最好的属性的能力

  什么时候使用决策树

  神经网络

  神经元模型

  生物模型

  人工神经元

  神经网模型

  网的拓扑结构:层次(前馈,反馈);全连通

  学习方法:有教员的(出入均知道);无教员的(输出不知道)

  运行机制:同步;异步

  神经网络的基本特点

  大量简单节点的复杂连接;高度并行处理;分布式存储,信息存在整个网中,用权值体现出来,有联想能力,可以从一个不完整的信息恢复出完整信息;自组织、自学习。

  六种常用于模式识别的神经网络分类器

  Hopfield Net

  Harmming Net

  Carpenter/Grossberg 分类器

  单层感知网

  多层感知网

  Kohonen的自组织特性图

  [此贴子已经被作者于2005-9-29 9:54:04编辑过]

NASA 发表于 2005-10-2 08:56

回复:(wsi)数据挖掘技术和算法

本帖最后由 wdhd 于 2016-8-31 15:07 编辑

  能分别把六种神经网络做个简要介绍吗?

  六种常用于模式识别的神经网络分类器

  Hopfield Net

  Harmming Net

  Carpenter/Grossberg 分类器

  单层感知网

  多层感知网

  Kohonen的自组织特性图
页: [1]
查看完整版本: 数据挖掘技术和算法