蓝盟IT小贴士,来喽!
01你去哪里找
对于常见的问题,有很多可以开始你的检索的地方。
正如谷歌学术(Google Scholar )在研究论文中使用的那样,Google Dataset Search被用于数据集。 谷歌搜索的应用程序无处不在。 这是理解特定主题的良好出发点。 谷歌还管理一个公共数据库,称为谷歌公共数据,亚马逊也有自己的AWS数据注册中心。
Kaggle.com是一个致力于数据科学的在线社区。 因为它拥有由社区和组织贡献的大型数据集存储库,并且包含许多主题,所以可以进行选择。 这个网站也是在比赛和讨论中学习数据分析细节的重要资源
研究机构通常公开科学数据供公众使用。 这在需要敏感的人类数据时(如果可以确信已经适当地匿名了)特别有用。 澳大利亚有澳大利亚统计局、联邦科学产业研究机构(CSIRO )等机构,也有访问政府数据的在线门户data.gov.au。
在世界其他地方,有名的机构有美国航天局、美国国家航空管理局、美国全国卫生组织、联合国基金会、中心、最大计划研究所、美国航空航天局、欧洲航空管理局等。
同样,许多国家有中央政府的数据存储区,如data.gov (美国)、open.canada.ca、data.govt.nz、data.europa.eu、data.gov.uk等
一些没有科学目的的公司在达到自己可以进行内部研究的规模或达到要求进行内部研究的规模时,会公开数据存储。 世界银行和国际货币基金组织(IMF )就是一个很好的例子,是开放金融和大众数据的主要来源。
如果可能,从可靠的组织购买数据是确保准确性、范围和应用价值类型和格式的绝佳方法。
像FiveThirtyEight和BuzzFeed这样的新闻网站包括从公众调查中得到的数据和从重要文章中收集到的数据,以及可能涉及公众福利的重要社会和政治数据(网络审查、政府监控、枪支、医疗保健等)、体育活动
Reddit的/r/datasets是信息共享的好地方。 可以浏览人们发布的有趣的东西,也可以求助于特定的问题。 此外,还有一些好的元数据,例如有人发布了详细的开放数据门户列表。 看Reddit时,/r/MachineLearning也是一个很好的选择。有时,随机发烧友也真的为你服务。 作者最喜欢的网站是Jonathan’sspacehomepage,其中一位来自哈佛大学史密森天体物理学中心的天体物理学家在网站上保存了发射到太空的所有物体的广泛列表。 作为附带项目,很棒。
稀有数据的另一个重要来源是整数数列在线大全(OEIS ),是各种数字数列及其附加信息(例如用于生成图和数列的公式)的庞大集合。 所以,如果你对卡特兰数感兴趣,或者想知道忙碌的海狸问题,OEIS会帮助你排序。
有无数网站致力于成为开放政府和重要研究出版物中使用的学术数据等领域数据集的中央注册中心。
这可能表明数据无处不在。 我们总是创造更多的东西。 而且,很多人和组织都在努力对我们所有人有用。 个人对数据源的喜好是根据时间和经验建立的,因此必须广泛地进行探索和实验。
从哪里找数据? 帮助别人建立数据集
02你在找什么?
在开始搜索之前,需要有明确的计划,知道要解决的问题需要什么才能建模。 对于要包括的潜在数据,请考虑以下因素:
数据中显示的值及其类型。
收集数据的个人或组织。
用于收集数据的方法(如果已知)。
收集数据的时间范围。
这个集合是否足以单独解决你的问题。 如果不行,是否容易合并其他来源?
准备好的数据集经常需要进行适合其他用途的修改。 这样,即使假设数据很干净(为了以防万一),也可能需要进行一些数据转换。 为了确保输出质量,应该从这里观察正常的数据准备步骤。
请注意,为了在某种程度上生成预期的结果,可能需要添加或不同格式的信息。 预构建的数据集是一个好的起点,但不应该被免除审查。 即使短期内需要大量工作,也需要修改或替换不正确的数据集。
03数据集的构建
要从头开始创建数据集,必须从某个地方获取原始数据。 这些任务通常分为三个主要维度:数据记录、数据组织和数据收集。
免责事项
每个国家都有自己的收集、存储和维护数据集的法律规定。 本节说明的一些方法在一个地区可能合法,但在下一个地区是违法的。 除非首先检查数据集的有效性,否则不要采取任何行动来检索数据集。
如果用获取或跟踪数据的方法观察您不拥有的在线内容,将在世界的某些地方招致严重的处罚。 不管你知不知道,不管你的目的是什么。 这不值得做。其他方法在法律中可能不明确,例如从公共场所收集照片和视频或出于其他目的提供数据所有权。
即使有许可证表明数据集可以使用所需的数据,在拥有数据后,也必须仔细考虑其收集方法和责任。 你所在地区的法律总是优先于授予你数据权限的许可。
根据经验,如果不是自己制作的数据,就没有那个(即使实际制作,也可能没有那个)。 所以,除非你得到明确的许可,否则不能收集或使用它。
文/上海蓝盟 IT外包专家