发布者:上海IT外包来源:http://www.lanmon.net点击数:1748
蓝盟IT小贴士,来喽!
数据科学家可以做什么来提供这种变革性的业务收益呢? 数据科学领域是几个重要因素的集合:准确提取可量化数据的统计和数学方法使用高级分析技术和方法从科学角度解决数据分析的技术和算法有助于处理大数据集高质量的数据
以下将更深入地研究数据科学家使用的一般统计和分析技术。 其中既有扎根于几世纪数学和统计工作的数据科学技术,也有利用机器学习、深度学习和其他形式的高级分析研究成果的技术。
数据科学如何发现数据之间的关系。
在识别大量数据的信息时,数据科学家首先需要识别不同的数据元素是如何相互关联的。 例如,如果一张图像上画了很多数据点,我该怎么知道它们是否有意义?
数据科学家使用最广泛的是三种统计和分析技术。 数据可能代表两个或多个变量之间的关系,其工作是绘制最能描述这种关系的曲线或多维平面。 或者,表示亲和的群集。 其他数据可能代表不同的类别。 通过发现这些关系,可以使数据的其他随机性具有意义,对其进行分析和可视化,提供组织可以用于制定决策和计划战略的信息。
以下是可用于执行分析的各种数据科学技术和方法。
分类技术
在分类问题中,数据科学家应该回答的第一个问题是“这些数据属于什么类别? ”。 对数据进行分类的理由很多。 数据可能是手绘图像,但人们需要知道图像代表什么样的文字和数字。 或者表示贷款申请的数据,我想知道是否应该属于“已批准”或“已拒绝”类别。 其他分类可以集中于判断患者的治疗方案和电子邮件是否为垃圾邮件。
数据科学家用来将数据过滤到类别中的算法和方法如下:
决策树。 这些是分支逻辑结构,使用机器生成的参数和数值树将数据分类为已定义的类别。
贝叶斯分类器。 利用概率的力量,贝叶斯分类器有助于将数据分成简单的类别。
支持向量机(SVM )。 支持向量机的目的是绘制宽边间隔的曲线或平面,并将数据分成不同的类别。
K-邻居算法此技术使用简单的“惰性决策”方法,根据数据集最近的类别,确定数据点应该属于哪个类别。
逻辑回归。 使用分类技术,但使用将数据对准一条线的想法来区分各边的不同类别。 这条线的形状允许数据移动到类别。神经网络。 这个方法使用训练有素的人工神经网络,特别是具有多个隐藏层的深度学习网络。 神经网络已经显示出强大的分类能力,其中包括大量的训练数据。
回归技术
如果我不知道数据属于什么类,想知道不同数据点之间的关系,该怎么办? 回归的主要思想是:“这个数据的预测值是多少? ”的问题。 简单的概念是来自“平均回归”的统计概念,是独立变量和原因变量之间的直接回归或试图找到多个变量之间的关系的多维回归。
例如决策树支持向量机(SVM )和神经网络的几种分类技术,也可以用于回归。 此外,数据科学家可以使用的回归技术包括
线性回归。 作为数据科学中应用最广泛的方法之一,该方法试图基于两个变量之间的相关性找到最适合分析对象数据的曲线。
套索回来了。 Lasso (套索)是“最小绝对收缩和选择运算符”的缩写,是通过在最终模型中使用数据的子集来提高线性回归模型的预测精度的技术。
多元回归。 这包括找到适合可能包含多个变量的多维数据的线或平面的各种方法。
聚类与相关分析技术
另一个数据科技集团的重点是回答“这些数据是如何分组的,不同的数据点属于哪个组”的问题。 数据科学家可以发现具有共同各种特征的相关数据点的聚类,并在分析应用程序中生成有用的信息。
可用于集群用途的方法如下。
k均值群集k均值算法确定数据集中的群集数量,定位不同的群集,并将数据点分配给最近的群集。
平均漂移聚类。 基于重心的聚类技术,可以单独使用,也可以通过移动指定的重心来改善k均值聚类。
DBSCAN。 DBSCAN是“基于密度的噪声空间聚类算法DBSCAN”的缩写,是发现使用更高级方法识别集群密度的集群的另一种技术。
高斯混合模型。 高斯混合模型有助于通过使用高斯分布对数据进行分组来找到簇,而不是将数据视为奇点。
层次聚类。 和决策树一样,这种方法使用分层的分支方法来搜索聚类。
关联分析是相关但独立的技术。 其背后的主要思想是找到描述不同数据点之间共性的关联规则。 和聚类一样,人们在寻找数据所属的组。 但是,在这种情况下,它不仅仅是识别群集,而是试图决定数据点什么时候一起出现。 在聚类中,以把大数据集分成可识别的组为目标,但通过相关分析,测定了数据点之间的关联度。
文/上海蓝盟 IT外包专家
分享到: