[分享]数据挖掘综述
本帖最后由 wdhd 于 2016-8-31 15:08 编辑模糊逻辑
回复:(xingxia)[分享]数据挖掘综述
本帖最后由 wdhd 于 2016-8-31 15:08 编辑逻辑程序作为数据挖掘技术
演绎逻辑程序
归纳逻辑程序
ILP作为数据挖掘技术
ILP应用 Figure 8 –6
数据挖掘工具
数据挖掘工具分类 Figure 9-1
原型工具
新的功能模型
开发新的模型、框架:Stanford University; MITRE Corporation ; Hitachi Corporation ; Rutgers University
目的:综合数据挖掘和数据库管理
项目名称:Queryflocks (Stanford University,MITRE Corporation,Hitachi Corporation),开发支持数据挖掘查询方法和优化技术。
Rutgers University,数据挖掘查询语言
新的信息服务
挖掘不同类型的数据(多媒体)
Text数据挖掘:Queryflocks;Cheng and Ng ,University of Arizona;Feldman,Bar-Ilan University in Israel
Image数据挖掘:SKICAT,JPL(Jet Propulsion Lab);Clifton,MITRE Co.;University of British Columbia
WEB数据挖掘:University of Michigan ;University of Minnesota
Scalability
数据挖掘算法的可度量性:The Massive Digital Data System Project;Magnify Inc.;Thinking Machines Co.;SGI;IBM’s YorkTown Heights research laboratory
结果的可理解性
GTE Lab;Simon Fraser University;University of Massachusetts at Lowell
大规模的项目
IBM Quest project, Agarwal
Simon Fraser University’s DBMINER, Han
商业工具
Red Brick: DATAMIND
Lockheed Martin: RECON
IBM: INTELLIGENT MINER
Information Discovery: IDIS
Neo Vista: DECISION SERIES
Part III. Trends in Data Mining
挖掘分布式、异质、遗留数据库
分布式数据库:Figure 10-1,Figure 10-2
异质数据库的互操作:Figure 10-4
遗留数据库的迁移:Figure 10-5
挖掘分布式、异质、遗留数据库
分布式数据挖掘:Figure 10-6,Figure 10-9
异质数据库挖掘:Figure 10-10,Figure 10-11,Figure 10-12,Figure 10-13,Figure 10-14 合作数据挖掘,中间件 Figure 10-16
遗留数据库挖掘:Figure 10-17,Figure 10-18,系统重建Figure 10-19
多媒体数据挖掘
两种方法:抽取结构,挖掘结构数据;直接挖掘多媒体数据
多媒体数据库:体系结构;数据建模;MM-DBMS功能:数据操纵,事务管理,元数据管理;存储管理;一致性和完整性。
挖掘多媒体数据
Text挖掘
半结构,非结构;
转换成结构化数据,在结构化数据上挖掘(文本—关系数据库)Figure 11-10
数据挖掘与信息检索结合Figure 11-11
开发直接挖掘非结构化数据的工具Figure 11-12
Image 挖掘
Clifton 抽取元数据挖掘;Unusual pattern; classify, cluster, associate image
Video 挖掘
转化Figure 11-14;直接挖掘Figure 11-15
Audio 挖掘
与Video类似,Text转化Figure 11-16;直接挖掘Figure 11-17
挖掘综合类型
与异质数据库类似,MDP Multimedia Distributed Processor
先综合后挖掘Figure 11-18, 先挖掘后综合Figure 11-19
数据挖掘和WWW
Internet 数据库管理和数字图书馆
Web数据挖掘
分类:Figure 12-12
挖掘Web数据:Figure 12-6;Figure 12-7;Figure 12-8;Figure 12-9;Figure 12-10
挖掘访问模式:Figure 12-11
数据挖掘的安全和隐私问题
inference 问题
mining , warehouse , inference
隐私问题:Figure 13-7
数据挖掘的元数据
元数据
挖掘和元数据
元数据挖掘Figure 14-4
mining and repository Figure 14-5
多媒体数据和元数据Figure 14-6
Web数据挖掘和元数据Figure 14-7
中心容器Figure 14-8(数据库中的数据很难直接挖掘)
回复:(xingxia)[分享]数据挖掘综述
本帖最后由 wdhd 于 2016-8-31 15:08 编辑总结和方向
总结
Chap 1:引言
概念;结果,技术,方法;本书三层框架- 所涉及的技术,技术和工具,趋势
Part I :支持数据挖掘的技术
Chap 2:数据库系统
数据模型;数据库体系结构;数据库功能;数据库和数据挖掘的结合
Chap 3:数据仓库
数据仓库定义、技术、功能;开发数据仓库;数据仓库、数据库管理和数据挖掘的关系
Chap 4:其他支持的技术:统计、机器学习、可视化、并行处理、和决策支持
Chap 5:数据挖掘不同的体系结构:技术;功能;Client/Server
Part II :数据挖掘技术和工具
Chap 6:数据挖掘过程
例子(偏差分析/关联规则/分类等);数据挖掘的原因;数据挖掘步骤;用户接口方面
Chap 7:数据挖掘的结果(任务),方法和技术
结果-聚集/分类等;方法论-自顶而下/自下而上/混合;技术-决策树/神经网络/逻辑归纳
Chap 8:逻辑归纳inductive logic programming
演绎逻辑编程;逻辑归纳编程;ILP作为数据挖掘技术及其缺陷
Chap 9:数据挖掘工具
研究原型-新的功能模型/新的信息服务/结果可理解性/可度量性/大规模项目;商业工具
Part III :数据挖掘趋势
Chap 10:挖掘分布式、异质、遗留数据库
新的研究领域;问题;需要做的工作
Chap 11:多媒体数据挖掘
多媒体数据库简介;在多媒体数据上的数据挖掘 – 文本/图象/视频/音频数据;方向
Chap 12:Web数据挖掘
Web数据管理;Internet数据库和数字图书馆;WEB数据挖掘 – Internet数据库(构建数据仓库和多媒体数据挖掘)/用户浏览模式
Chap 13:数据挖掘的安全和隐私问题
推论问题inference problem;处理推论问题的方法;逻辑归纳和推论;隐私问题
Chap 14:数据挖掘的元数据
元数据简介;挖掘元数据;利用元数据挖掘数据
挑战
不完全和不精确的数据
标记数据,计算机处理,存储数据库,创建数据仓库,数据清洁,解决不确定性,格式化数据
不充分的工具和资源
数据挖掘工具不成熟
剪除结果和理解结果的能力
prune mining result,可视化,数据的可理解性
多语言挖掘 : 处理多种语言的工具
数据挖掘算法的可度量性
数据挖掘项目管理上的支持
Part III分布式,异质,遗留数据库/多媒体数据/WEB数据/安全和隐私问题/元数据挖掘
方向
数据理解
不完全和不精确的数据
多语言挖掘
多策略学习
可度量性Scalability (大规模数据)
更好的数据挖掘技术
数据挖掘理论 (艺术 – 理论)
技术综合
分布式,异质,和遗留数据库挖掘
多媒体数据挖掘
WEB挖掘
元数据挖掘
数据挖掘的安全和隐私
归纳和建议
数据挖掘是多技术的综合: 数据管理,机器学习,统计推理,高性能计算,决策支持,可视化
好的数据是数据挖掘的关键
数据挖掘研究处于初级阶段 (98) : 期望不同的方法论和OO设计和分析技术的应用
如 UML应用在数据挖掘上
实际数据挖掘应用的开发有助于对数据挖掘的理解
数据挖掘项目需要管理和交流
利用各种数据挖掘产品和原型的商业和研究的材料
数据挖掘是一个机遇,也是一个挑战
页:
[1]