IT外包网管服务,数据挖掘是为了做这四件事而进行的吗?

发布者:上海IT外包来源:http://www.lanmon.net点击数:1582

蓝盟IT小贴士,来喽!
某个特殊的分类问题是“二分”问题,显然“二分”问题意味着预测的分类结果是“可”还是“否”只有两个类别的好/坏的高/低……? 这样的问题也称为0/1问题。 其特殊的原因是,在解决这样的问题时,只需要关注预测属于其中一个类的概率,因为两个类的概率可以相互导出。 若将预测X=1的概率设为P(X=1),则X=0的概率P(X=0)=1-P(X=1)是重要的。
许多人可能关心数据挖掘方法如何预测P(X=1)这一问题,但其实并不困难。 解决这些问题的一大前提是,通过历史数据的收集,特定用户的分类结果变得明确了。
例如,已经收集了10000名用户的分类结果,其中7000人相当于“1”的3000个属于“0”类。 在收集分类结果的同时,还收集了这10000名用户的一些特点(指标、变量)。 这种数据集合一般在数据挖掘中被称为训练集合,并且由名称可以看出,在该数据集合中训练了分类预测的规则。


训练的想法是分析所有收集到的特征/变量,寻找与目标0/1变量相关的特征/变量,汇总P(X=1)和所选择的相关特征/变量之间的关系(用不同的方法汇总的关系的表现方式各不相同,回归的方法是函数关系式,决策树方法是规则元素。
聚类问题不是预测性的问题,而主要是把一个群的对象分成几个群的问题。 分类依据是集群问题的核心。 因为“物以类聚,人以群分”,所以取了聚类这个名字。
聚类问题容易与分类问题混淆,主要是语言表达的原因。 我们说:“根据客户的消费行为,将客户分为三个类别,**个类别的主要特征是……”。 实际上是聚类问题,但是在表现上容易被误解为分类问题。
分类问题和聚类问题本质上不同:分类问题是预测未知类别的用户属于哪个类别(相当于单选问题),而聚类问题是根据选定的指标对组的用户进行分类(相当于开放性的论述问题),这不是预测问题。
聚类问题在商务案例中也非常常见。 例如,您需要选择多个指标(如价值、成本或产品)来对现有用户组进行分类。 特征相似的用户集合在一个组中,特征不同的用户属于不同的组。最初的相关分析主要在超市得到广泛应用,故又称“购物车分析”,英文简称MBA。 当然,MBA不是指他的MBA,而是指市场basketanalysis。
在研究问题上,假设一个用户购买的所有产品都是同时购买的,分析的重点是所有用户购买的产品之间的关联,假设用户购买产品的时间不同,如果需要强调分析时间关联性,例如从购买什么开始购买什么等。 这类问题被称为序列问题,是相关问题的特殊情况。 在某种意义上,系列问题也可以按照相关问题操作。

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部