发布者:上海IT外包来源:http://www.lanmon.net点击数:1397
蓝盟IT小贴士,来喽!
在Airbnb的时候,有机会在向Brian Chesky报告的新团队中行动。 这是令人兴奋的事情。 因为我们在演新产品系列,所以必须每天做变更游戏的决定。 但是,作为团队的数据科学家,我总是购买数据来指导产品的发展方向。 这意味着很多分析工作。
第一周是对我的上下文切换能力的困难测试。 必须找到不明确的表,并创建大量查询,但从Beautifulsoup Scrapes和Veartrics API请求了正则表达式。 到第三周就开始疲劳了,所以需要维持速度的系统。 我来实现。 使用数据时,只有两种方法。
使用错误的数据。
错误的使用数据。
两者都可以通过在数据周围有更好的上下文来解决。
于是我自己列了一个清单,减轻这两个错误,别忘了产品。 在这里分享我,但这对你来说可能取决于你公司的特定芯片。 以此为样本指南,介绍了解自己良好语境的方法,以提高使用表格的危险性,但建议将此作为自己的东西。
那么,我需要什么样的背景? 你怎么得到那个
嗯,需要所有的信息。 这些信息会减少错误,或者使用错误数据的数据。 以我的经验,只有三个检查才能得到合理的掩饰。
检查基本表METAData.e.g。 列名、分区信息、生成方法。
确认前提条件。 在这个专栏里是什么? 这是空排吗? 完全不同的价值是什么? 上次我跑了这个查询之后有这些变更吗?
联系其他人。 别人做这个表是做什么的? 有谁有问题吗?
1 .检查基本表元数据
第一步是找出表格,弄清楚如何查询它。
oumustwooyourtablebeforeitwillrevealitssecrets (repostedwithpermissionfromolyatanner ) )
对于最基本的信息(如列名、索引信息、分区信息和显示定义),通常可以查询系统表。 把这些表的清单留在手边,就很容易查询了。 例如,请注意下表对符合ANSI SQL标准的数据库(大部分)非常有用。
information _ schema.columns列名、分区信息、列类型和无效。列出信息_方案和信息_方案的所有表和视图。 视图。 通常可以获取DDL语句。
在许多情况下,也可以获得别人写的查询历史记录。 这有助于理解桌子的使用方法。 也可以根据语句的类型进行过滤(创建、插入、选择等),以确定表的创建方式。
信息方案按项目(位查询)表(信息方案.查询历史()
2 .确认假设。
记下前提条件,然后运行并检查查询。
aniceillustrationofapersonmakingachecklist,incaseyouhaven’tseenonebefore。
此时,我想确认数据是否是你在想的。 我的典型方法是随便走的选择*,选不同的词,这是下一个优。 更好的方法是先弄清楚
我需要回答什么问题,我做了什么假设?
写下这些,然后写下回答这些问题的查询/验证假设。 听起来很简单,但如果做了错误的假设,就必须重新开始。 我们在使用数据时做了假设。 如果你没有明确他们,这是灾难的处方。
最近的项目示例:
每个活动只有一行吗?
这个字段的可能值是什么?
这个专栏有无数个吗
如果为null,这些null值是否具有系统模式?
我个人使用的是诸如鲸鱼(CLI工具,如果感到烦躁)和正在运行的数据帧(只要有计划)之类的快速检查,但无论使用什么,都只会让它们持续下去。
最后,是的,那很好——继续选择*。 有时只需要看一张数据。
3 .与他人联系
既然你已经有了感官数据的形式,只是潜入,建立你应该做的东西。 住手。 需要获得尽可能多的社会环境和部落知识。 特别是在大型组织中。
现在正是收集部落知识的时候。
文/上海蓝盟 IT外包专家
分享到: