对数据科学的需求现在很大,似乎部分原因是因为数据科学家需要拥有该行业的经验。但实际上,我与之合作的许多最优秀的数据科学家都来自不同的背景,从人类学到神经科学,并具有脱颖而出的实践经验。对于想要转向数据科学职业的毕业生或数据分析师来说,做一些事情来展示他们在这一领域的技能是一项挑战。我还将从公司招聘数据科学家和求职者应用数据科学家的角度谈谈这一职业的关键经验:
有抱负的数据科学家的六条建议
我自己尝试过云计算。
创建了一个新的数据集
能够关联各种信息
提供服务
做了很酷的可视化
写了一份白皮书
我稍后会详细解释上述几点。但首先,数据科学领域最关键的因素是能够创建为企业创造价值的数据产品。能够创建端到端数据产品的数据科学家是企业的宝贵资产,因此在向数据科学家申请时,有必要证明您具备这些技能。
1.亲自尝试云计算
许多公司现在正在寻找具有云计算经验的数据科学家,因为云平台提供的工具可以扩展数据流和预测模型。将来,您还可以在日常工作中使用云平台,例如亚马逊的AWS和Google Cloud Platform(GCP)。
好消息是许多平台都提供免费版本,以便更多人了解云平台。例如,AWS有免费版的EC2和免费使用的服务(例如支持少量请求的Lambda)。 GCP为用户提供平台上大多数功能的免费300美元功劳,而Databricks则提供该平台的社区版本。虽然您无法在这些平台上免费运行大数据集,但您可以在平台上积累经验。
我的一个建议是,您可以尝试这些平台的不同功能,看看是否可以使用一些工具来训练和部署模型。例如,在一篇关于基于模型的服务的文章中,我使用了我熟悉的SKlearn,并研究了如何将模型包装到Lambda函数中。
2,创建一个新的数据集在课堂或数据科学竞赛中,您经常需要一个干净的数据集,以便整个项目可以专注于数据探索和数据建模。但是,在许多实际项目中,您需要进行数据整理,以将原始数据集转换为更有利和分析建模的数据集。通常,数据整理需要收集用于数据转换的附加数据集。例如,我已经处理了美联储的数据,以更好地了解富裕家庭的资产配置。
这是一个有趣的项目,我使用第三方数据来评估第一手数据的准确性。所以我的第二个建议是深入建立一个数据集。此过程可能涉及从网站爬行数据,从统计网站(如steamspy)采样数据,或集成不同的数据源以创建新数据集。例如,我在研究生学习期间创建了一个用于播放星际争霸游戏的数据集,这证明了我能够在新生成的数据集上组织数据。
3.将各种信息链接在一起
我希望数据科学家能够展示出一种力量:他们可以连接不同的组件或系统来完成任务。在数据科学家的角色中,可能没有明确的产品化模型路径,因此您可能需要构建一些独特的东西来启动和运行系统。理想化的数据科学团队将拥有工程师来构建和运行系统,但原型设计对于数据科学家来说是一项很好的技能,它可以让您快速运行。
我对此的建议是尝试将不同的系统或组件集成到数据科学工作流程中。此尝试可以包括使用Airflow等工具开发数据管道。它还可以包括连接不同系统的构建桥。例如,在JNI-BWAPI项目中,我开发了一个基于Java的界面来连接到星际争霸:Brood War的API库。或者它可以包括将不同的组件集成到一个平台中,例如使用GCP数据流(DataFlow)来获取BigQuery数据,然后将其应用于预测模型,然后将预测结果存储在云数据存储中。雷锋网雷锋网(公众号:雷锋网)雷锋网
4.提供服务
作为数据科学家,您经常需要提供服务供公司中的其他团队使用。例如,这可以是Flask应用程序,它提供深度学习模型的结果。如果您可以开发此服务,则意味着其他团队将能够更快地使用您的数据产品。
在这方面,我的建议是尝试使用一些工具(如Flask或Gunicorn)来配置Web端点(端点),然后使用Dash在Python中创建交互式Web应用程序。当然,尝试在Docker中配置其中一些服务对您也很有帮助。5,做了很酷的可视化
虽然伟大的工作自然会脱颖而出,但在解释分析或模型如何重要之前,仍然需要引起所有人的注意。我的建议是学习各种可视化工具,以创建引人注目的数据可视化。
可视化还改进了一系列任务。
以下博客展示了我在过去10年中作为数据科学家发现的一些工具和数据集。
10年的数据可视化:
https://towardsdatascience.com/10-years-of-data-science-visualizations-af1dd8e443a7
6,写一份白皮书
人们一直强烈建议使用数据科学技能之一,即通过白皮书解释项目的能力。白皮书概述了如何应用研究,并提供了研究方法和结果的详细介绍。白皮书旨在让更多读者一目了然地了解您的研究,其他数据科学家可以继续在您的基础上进行研究。
博客或其他形式的输出可以大大增加您的写作体验。我对此的建议是尝试向公众撰写一些数据科学文章,这样当你想表达你的想法时,你就会知道如何为不同的人解释不同的细节层次。