[分享]数据挖掘的一个完整过程
本帖最后由 wdhd 于 2016-8-31 15:07 编辑在现代社会中,公司大多数商务流程的核心部分是数据。而数据挖掘的任务就是在如此海量的数据中发现有用的数据。但是仅仅发现数据那是不够的。我们必须对这种模型做出一定的反应,并采取行动,最后将有用的数据转换成信息,信息变成行动,行动转换成价值。这个就是数据挖掘在商业应用上的一个完整的流程。
下面给出一个完整数据挖掘过程的四个步骤:
鉴别商业问题
使用数据挖掘技术将数据转换成可以采取行动的信息。
根据信息采取行动。
衡量结果。
商业问题的鉴定:
有些问题的产生是显然的,如:开辟新产品的市场;为现存的产品和服务定价;了解客户流失的原因。同时和各种人员的交流也是很重要的,当他们了解了DM之后,他们就有可能提出更好的问题。
数据挖掘:
以下一些情况可能影响数据挖掘的效果:
不好的数据格式。
另人费解的数据格式以及各个系统中数据含义的不一致。
缺少相应可以实施的功能。
挖掘出的结果缺乏充分的理由。
企业内部组织的问题。
耗时太长。
同时在挖掘之前还有一个数据准备的过程。
采取行动:
在采取行动的过程中,各个不同的企业、不同的部门他们采取的行动应该是个不相同的。但是有一个主要的方法是:不要一下子把面铺的很广,而是应该采取一种循序渐进的的方法。
衡量结果:
衡量可以给我们一个采取行动的效果的回馈。
一个好的想法是我们可以把数据挖掘作为一个小的商业过程。通过比较将实际结果和预测的值进行比较,我们往往可以发现一些很好的问题用于下一个数据挖掘的过程中。
现在很多的实际情况是由于我们的工作很忙以至于忽略了对结果的衡量。这种行为是一个错误。因为没一个数据挖掘的过程,不管成功与否,都可以有一定的经验以用于将来的活动之中。现在的问题是如何进行衡量以便提供最好的效果。
回复:(xingxia)[分享]数据挖掘的一个完整过程
本帖最后由 wdhd 于 2016-8-31 15:07 编辑数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤。
(1)数据准备:数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。
(2)建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。
(3)评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。
(4)运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。
页:
[1]