蓝盟IT外包,数据太多了不能使用吗? 让我们使用这个Kaggle大数据集有效地访问教程

发布者:上海IT外包来源:http://www.lanmon.net点击数:1284

蓝盟IT小贴士,来喽!
对数据科学家和Kaggler来说,数据并不多。
确实,你在解决一些问题时肯定抱怨没有足够的数据,但有时也抱怨数据量太多难以处理。 本文研究的问题是超大数据集的处理。
如果数据太多,最常见的解决方案是根据RAM对适量的数据进行采样,但未使用的数据可能会浪费,信息可能会丢失。 针对这些问题,研究者提出了几种不同的非子采样方法。 如果需要注意,某些方法无法解决所有问题,因此根据具体情况需要选择适当的解决方案。
本文对一些相关技术进行说明和总结。 把
但是。
另外,根据数据集和环境的不同,最有效的方法往往不同,没有什么万能的方法。
之后,陆续追加新的数据读取方法。
Pandas介绍
Pandas是最常见的数据集读取方法,也是Kaggle的默认方法。 Pandas功能丰富,使用方便,善于读取和处理数据。
使用pandas读取大型数据集的课题之一是可维护性,数据集列的数据类型估计pandas  dataframe会消耗大量不需要的内存。 因此,在数据读取时可以根据预先知识和样本检查预先定义的列数据的最佳数据类型,避免存储器损失。
RiiiD竞赛官方提供的数据集读取方法就是这样的。

文/上海蓝盟  IT外包专家

IT外包
>
400-635-8089
立即
咨询
电话咨询
服务热线
400-635-8089
微信咨询
微信咨询
微信咨询
公众号
公众号
公众号
返回顶部