数据挖掘技术和算法
本帖最后由 wdhd 于 2016-8-31 15:06 编辑技术和算法
技术:概念方法
算法:一步一步具体实现的细节
不同的目标要调用不同的技术
数据挖掘根据其目标分为说明性(Prescriptive)和描述性 (Descriptive)数据挖掘两种
不同的Data Type调用不同技术
三种数据挖掘技术
自动聚集检测;决策树;神经网络
原因: 大量的商业软件应用
覆盖了数据挖掘一个较广的范围
直接数据挖掘目标是预言,估值,分类,预定义目标变量的特征行为
神经元网络;决策树
间接数据挖掘:没有目标变量被预言,目的是发现整个数据集的结构
聚集检测
自动聚集检测
方法
K-均值是讲整个数据集分为K个聚集的算法。
K-均值聚集检测如何工作
随机选取K个记录,作为种子节点;
对剩余的记录集合,计算每个记录与K个种子节点的距离,将每个记录归到最近的那个种子节点,这样整个记录集初次划分为K个聚集;
对每个聚集,计算聚集的质心(聚集中心点);
以每个质心为种子节点,重复上述步骤,直至聚集不再改变。
Consequences of Choosing Clustering
选择距离函数
选择合适的聚集数
对聚集的解释
构造决策树
可视化看聚集如何受输入变量的影响
单变量测试
什么时候使用聚集检测
决策树
决策树分类
决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
一般的数据挖掘工具,允许选择分裂条件和修剪规则,以及控制参数(最小节点的大小,最大树的深度等等),来限制决策树的overfitting。
决策树如何工作
决策树是一棵树,树的根节点是整个数据集合空间,每个分节点是对一个单一变量的测试,该测试将数据集合空间分割成两个或更多块。每个叶节点是属于单一类别的记录。
首先,通过训练集生成决策树,再通过测试集对决策树进行修剪。决策树的功能是预言一个新的记录属于哪一类。
决策树如何构建
通过递归分割的过程构建决策树。
寻找初始分裂
整个训练集作为产生决策树的集合,训练集每个记录必须是已经分好类的。
决定哪个属性(Field)域作为目前最好的分类指标。一般的做法是穷尽所有的属性域,对每个属性域分裂的好坏做出量化,计算出最好的一个分裂。量化的标准是计算每个分裂的多样性(diversity)指标GINI指标。
树增长到一棵完整的树
重复第一步,直至每个叶节点内的记录都属于同一类。
数据的修剪
选择决策树的结果
处理输入变量
树和规则
选择最好的属性的能力
什么时候使用决策树
神经网络
神经元模型
生物模型
人工神经元
神经网模型
网的拓扑结构:层次(前馈,反馈);全连通
学习方法:有教员的(出入均知道);无教员的(输出不知道)
运行机制:同步;异步
神经网络的基本特点
大量简单节点的复杂连接;高度并行处理;分布式存储,信息存在整个网中,用权值体现出来,有联想能力,可以从一个不完整的信息恢复出完整信息;自组织、自学习。
六种常用于模式识别的神经网络分类器
Hopfield Net
Harmming Net
Carpenter/Grossberg 分类器
单层感知网
多层感知网
Kohonen的自组织特性图
[此贴子已经被作者于2005-9-29 9:54:04编辑过]
回复:(wsi)数据挖掘技术和算法
本帖最后由 wdhd 于 2016-8-31 15:07 编辑能分别把六种神经网络做个简要介绍吗?
六种常用于模式识别的神经网络分类器
Hopfield Net
Harmming Net
Carpenter/Grossberg 分类器
单层感知网
多层感知网
Kohonen的自组织特性图
页:
[1]