发布者:上海IT外包来源:http://www.lanmon.net点击数:1339
蓝盟IT小贴士,来喽!
关于数据挖掘的十个问题
NO.1 Data Mining与统计分析有何不同?
敢于区分Data Mining和Statistics的不同没有什么意义。 一般来说,这被定义为Data Mining技术的CART、CHAID、模糊计算等理论手法,是统计学家根据统计理论发展起来的,从另一个角度来看,Data Mining的相当大的比重是高等统计学中的多元分析所支持的。 我认为统计分析应该是数据挖掘的祖先。 因为数据挖掘的基本思想和方法多源于传统统计理论。 最典型的是时间序列分析,可以在这两个领域找到大量的时间序列分析论述,数据挖掘中的时间序列分析方法与统计中的时间序列分析方法相同,如一元回归等。 但是,统计分析中的时序分析不限于此,还有其他相关的方法。
另外,数据挖掘中的决策树方法等人工智能方法不存在于传统的统计理论中。 最后可以得出结论的是,数据挖掘的一些基本方法来源于统计分析,通过将目标性更强(例如挖掘期间的时间序列分析对趋势预测)、人工智能等其它技术相结合,创造出更加灵活有效的分析方法。
把庞大的数据转化成有用的信息,首先必须有效地收集信息。 随着科学技术的进步,功能完善的数据库系统成为最好的数据采集工具。 简而言之,数据仓库是从其他系统收集有用数据并将其存储在一个统一的存储库中。 因此,“设计支持系统”( Design Support System )是一个处理和集成的大容量关系数据库,用于存储和分析决策支持和数据。 从信息技术的角度来看,数据仓库的目标是在组织中在正确的时间将正确的数据传递给正确的人。
分享到: