IT外包网管服务，数据挖掘是为了做这四件事而进行的吗？-IT外包官网-蓝盟集团

IT外包网管服务，数据挖掘是为了做这四件事而进行的吗？

发布者：上海IT外包来源：http://www.lanmon.net点击数：1666

蓝盟IT小贴士，来喽！
某个特殊的分类问题是“二分”问题，显然“二分”问题意味着预测的分类结果是“可”还是“否”只有两个类别的好/坏的高/低……？这样的问题也称为0/1问题。其特殊的原因是，在解决这样的问题时，只需要关注预测属于其中一个类的概率，因为两个类的概率可以相互导出。若将预测X=1的概率设为P(X=1)，则X=0的概率P(X=0)=1-P(X=1)是重要的。
许多人可能关心数据挖掘方法如何预测P(X=1)这一问题，但其实并不困难。解决这些问题的一大前提是，通过历史数据的收集，特定用户的分类结果变得明确了。
例如，已经收集了10000名用户的分类结果，其中7000人相当于“1”的3000个属于“0”类。在收集分类结果的同时，还收集了这10000名用户的一些特点(指标、变量)。这种数据集合一般在数据挖掘中被称为训练集合，并且由名称可以看出，在该数据集合中训练了分类预测的规则。

训练的想法是分析所有收集到的特征/变量，寻找与目标0/1变量相关的特征/变量，汇总P(X=1)和所选择的相关特征/变量之间的关系(用不同的方法汇总的关系的表现方式各不相同，回归的方法是函数关系式，决策树方法是规则元素。
聚类问题不是预测性的问题，而主要是把一个群的对象分成几个群的问题。分类依据是集群问题的核心。因为“物以类聚，人以群分”，所以取了聚类这个名字。
聚类问题容易与分类问题混淆，主要是语言表达的原因。我们说：“根据客户的消费行为，将客户分为三个类别，**个类别的主要特征是……”。实际上是聚类问题，但是在表现上容易被误解为分类问题。
分类问题和聚类问题本质上不同：分类问题是预测未知类别的用户属于哪个类别(相当于单选问题)，而聚类问题是根据选定的指标对组的用户进行分类(相当于开放性的论述问题)，这不是预测问题。
聚类问题在商务案例中也非常常见。例如，您需要选择多个指标(如价值、成本或产品)来对现有用户组进行分类。特征相似的用户集合在一个组中，特征不同的用户属于不同的组。最初的相关分析主要在超市得到广泛应用，故又称“购物车分析”，英文简称MBA。当然，MBA不是指他的MBA，而是指市场basketanalysis。
在研究问题上，假设一个用户购买的所有产品都是同时购买的，分析的重点是所有用户购买的产品之间的关联，假设用户购买产品的时间不同，如果需要强调分析时间关联性，例如从购买什么开始购买什么等。这类问题被称为序列问题，是相关问题的特殊情况。在某种意义上，系列问题也可以按照相关问题操作。

上一篇: 蓝盟IT外包，元宇宙：四梁八柱是什么
下一篇: IT外包网管服务，程序员必须知道的8种数据结构
分享到：

微软云

IT采购

弱电工程

系统集成

客户故事

IT外包网管服务，数据挖掘是为了做这四件事而进行的吗？

400-635-8089