您是否正在寻找一些建议来构建数据科学作品集,让您领先于其他有抱负的数据科学家?不要错过这些有用的提示。

为什么要有投资组合?

实际经验 的人,这不足为奇 第一份 之前,你如何获得这种经验呢

其实,你并不需要被雇佣来做数据科学,建立一个数据科学作品集是一个很好的开始。数据就在你身边——你所需要做的只是定义一个问题,并展示你使用数据科学工具包解决问题的能力。

创建一个出色的数据科学作品集

Python 数据科学 基础知识 ,并正在寻找一个地方来开始您的数据科学作品集。但是,如何构建一个真正 强大的 作品集呢?

以下是我建立数据科学作品集的基本技巧,这些技巧将使您从其他有抱负的数据科学家中脱颖而出。让我们开始吧!

1. 围绕你的兴趣建立投资组合

你对什么感兴趣?特朗普的政策、不同地区的犯罪率,或者可能是 南方公园电视节目 ?你可以为(几乎)任何你感兴趣的事情创建一个数据科学项目。只需确定你想要解决的问题(例如,确定你要出售的房子的价格)或你想要回答的问题(例如,谁是《权力的游戏》中最受欢迎的角色?)。

Game of Thrones Network

请记住:这个主题必须真正引起你的兴趣。这将激励你努力工作,超越通用的分析工具来寻找你迫切的数据问题的答案。当然,当人们对他们所做的事情充满热情时,它总是会表现出来。

2. 选择别人能理解的项目

确保你的作品集中的项目不要太具体,以免只有该领域的专家才能理解。例如,你可能非常擅长化学,可能会决定分析不同的洗发水成分如何影响产品的价格和评论。但其他人可能不喜欢仔细阅读有关 十二烷基硫酸钠 , 对羟基苯甲酸酯 吡硫锌 .

当然,如果你正在寻找特定细分行业(例如化学)的数据科学职位,那么在你的作品集中有一些专门的项目会很棒。但除此之外,你还应该考虑可能引起更广泛受众兴趣的主题。

3. 避免使用常见数据集

常用数据集提供了练习新技能和概念的绝佳机会,因此请随意使用它们作为练习。但除此之外,它们都是已经被彻底打入数据科学坟墓的死马。因此,除非您想在求职者中迷失方向,否则请将它们从您的投资组合中剔除。

此外,当您使用独特的数据集并努力解决非平凡问题时,您的潜在雇主可以更加确信每个项目都代表您自己的工作,而不仅仅是网上广泛提供的别人的代码的副本。

网络抓取是获取独特数据集的好方法。幸运的是,Python 有许多库可以帮助您以适合分析的格式充分利用网络。请考虑以下库:

  • requests 将帮助您获取 HTML 内容。
  • BeautifulSoup 非常适合从 HTML 文件中提取数据。
  • pandas 是进一步进行数据整理和分析的绝佳选择。

4. 通过不同的项目平衡你的投资组合

雇主在寻找数据科学家时,会寻找一组特定的技能。使用您的作品集来展示您在 Python 数据科学方面的技能,包括不同类型的项目:

  • 数据清理 项目 将展示如何使用 pandas 库准备数据以供分析。
  • 数据可视化 项目 将展示您使用可用的 Python 库(matplotlib、seaborn、plotly、cufflinks、bokeh)创建有吸引力且有意义的可视化的技能。
  • 需要 一个 机器学习
  • 讲故事的 项目 将验证您从数据中获取非平凡见解的能力。

对 pandas 和 matplotlib 有点生疏了?查看我们的 数据科学 Python 入门在线课程,复习这些必备的 Python 库。

5.参加比赛

竞赛在数据科学界非常流行。公司、政府和研究人员经常向公众提供数据集,然后数据科学家可以对其进行分析,以生成描述数据的最佳模型,并为数据所有者带来价值。

通过参加不同的数据科学竞赛,您将能够:

  • 练习你的编码和数据科学技能。
  • 评估您与其他数据科学家相比的地位。
  • 向潜在雇主展示您的成就。

不要害怕通过添加排行榜链接或提及你在比赛中表现特别出色的百分位排名来加强你的作品集。

如果你有兴趣,请查看以下数据科学竞赛平台:

  • 卡格勒
  • 驱动数据
  • 睡眠
Kaggle Competitions

6. 查看其他成功数据科学家的作品集

当你看到好的例子时,创作总是更容易。即使你读了大量关于如何构建完美数据科学作品集的文章,你可能仍然有很多未解答的问题。我该如何把它们组合在一起?最终的作品集应该是什么样的?

如果你感到迷茫,一定要看看成功的数据科学家的作品集,以便更好地了解前进的方向。你可能会受到 Sajal Sharma , Donne Martin 或 Andrey Lukyanenko .

7.考虑使用 Jupyter Notebook

Jupyter Notebook 可让您轻松地在 Python 中混合代码、文本和图像。此 IDE 为创建具有视觉吸引力的文档提供了绝佳的机会,这些文档可无缝结合您的代码、可视化、表格和说明。但是,根据您的个人喜好,您可以选择使用 其他 Python IDE 。最后,找到您熟悉的东西。

Jupyter Notebook

8. 在 GitHub 上发布你的代码

GitHub 是程序员分享代码和项目成果的热门平台。一般来说,数据科学家会将个人项目公开。出于竞争考虑,商业项目通常不开源,但 Facebook 和 Google 等大型科技公司会将许多项目公开。因此,当您在 GitHub 上公开您的工作时,就表明您属于为开源工作做出贡献的数据科学家社区。

GitHub

9.用数据讲故事

数据科学就是用数据讲故事,因此,重要的是要表明你熟悉使用 Python 和主要数据科学库。但是,你绘制图表不只是为了得到漂亮的图片,你运行机器学习算法也不只是为了得到准确的模型。 作为一名数据科学家 ,你应该能够为你的发现增添意义,区分什么是重要的,什么是不重要的,并详细说明你从数据中获得的任何有趣见解。因此,你的数据科学作品集必须包含对每个项目结果的详细解释。

10. 开始写博客

除了精通 Python 数据科学之外,招聘经理在寻找数据科学家时还会寻找另一套非常重要的技能:书面和口头交流能力。事实上,你用简单的术语传达复杂机器学习概念的能力可以预测你与队友和经理的沟通能力。你是否能够解释你的机器学习模型的结果,以便非 IT 人员能够理解?

写博客是展示您真正理解数据“告诉”您什么并能向可能不太熟悉数据科学的人解释结果的好方法。您可以使用 Medium 或其他博客平台来开始您的数据科学博客。

11. 更新你的投资组合

建立作品集是一个反复的过程。当你获得新技能、发现新工具或阅读另一种有趣的技术时,你的作品集也应该更新以反映你新获得的知识。不要以为在公开项目后就不能再编辑它了——在项目发布后对其进行迭代和改进是绝对可以接受的(也是常见的做法),尤其是在 GitHub 上。

发现了如何创建交互式可视化?考虑使用这些图表增强您的一些项目。了解了另一个可以提高机器学习模型性能的技巧?确保相应地更新您的投资组合中的项目。

包起来

遵循这些建议,你的数据科学作品集将帮助你更快地找到第一份数据科学工作。但当然,你首先需要 非常熟悉 Python 数据科学 ,并掌握 其他必要的数据科学技能 .

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部