Python 于 1991 年首次发布,因此它已经存在了很长一段时间。然而,它近年来才开始流行起来。Python 在数据科学中的应用是其普及的最重要因素。
根据编程语言流行度指数 ( PYPL 指数 ),Python 目前是最受欢迎的语言,并且在过去 5 年中增长最快。PYPL 指数是通过分析语言教程在 Google 上的搜索频率创建的。
Python 成为有抱负的数据科学家和在数据科学领域工作的人们最喜欢的语言的主要原因有两个。
首先,Python 易于学习。它的语法清晰、直观且可读性强。由于数据科学生态系统中工作着来自各种技术和非技术背景的人,因此,一门不难学习的编程语言很可能成为他们的首选。
第二个原因是众多非常有用的 Python 库。这些库简化并加快了数据科学中的大多数任务,从数据清理到创建机器学习模型。如果你想了解有关这些库的更多信息,我强烈建议你阅读这篇关于 数据科学前 15 个 Python 库的 .
如果您想了解更多有关数据科学家的工作以及他们使用 Python 的用途,这里有一篇很棒的 文章 ,可以详细回答这些问题。
学习 Python 或任何其他编程语言或软件工具的最有效方法是通过交互式在线课程。它们允许在解释主题和概念的同时进行练习。这种结合是学习的基础。
数据科学书籍可以作为在线课程的补充学习材料。到目前为止, LearnPyhon.com 博客上已经发表了两篇关于最佳 Python 书籍的文章: 最佳 Python 书籍 和 最佳 Python 书籍,第 2 部分 .
在本文中,我们将重点介绍数据科学的最佳 Python 书籍。作为一名积极学习数据科学超过 3 年的数据科学家,我根据自己的经验以及从数据科学社区学到的知识做出了选择。
每本书的标题都链接到其亚马逊页面,以便您轻松找到它。值得注意的是,亚马逊对选择没有影响,我们也没有从链接到亚马逊列表中获得任何补偿。
1. John Paul Mueller 和 Luca Massaron 撰写的《数据科学 Python 入门》
这是一本入门书,可帮助您开始使用 Python 进行数据科学之旅。它首先解释了 Python 与数据科学之间的密切关系。作者还解释了使用 Python 学习数据科学的优势。
有一章回顾了 Python 基础知识,如果你是 Python 和编程新手,这将非常有帮助。因此,即使你之前没有任何 Python 经验,你也应该没问题。
然后,几章内容讲解了如何清理、操作和组织数据。您还将有机会学习使用 Matplotlib 进行数据可视化。
本书还包括有关数据分析和机器学习的章节。
2. 《Python 数据科学手册:处理数据的基本工具》(作者:Jake VanderPlas)
这本数据科学书籍涵盖了最常见的任务,例如数据处理、数据可视化和机器学习。作者是华盛顿大学电子科学研究所的开放软件主任,他通过提供经过实践的示例清楚地解释了主题和概念。您将有机会学习数据科学中最广泛使用的 Python 库:NumPy、Pandas、Matplotlib 和 Scikit-Learn。
如果您是数据科学和这些库的新手,我建议您从一本更适合初学者的书开始。这本书可以作为您的第二本或第三本书,因为它可以快速转到更复杂的任务,例如数组广播、矢量化操作、自定义图表等。但是,一旦您熟悉了基础知识,这本数据科学书籍就是学习 Python 数据科学库高级功能的绝佳资源。
3. Joel Grus 撰写的《从头开始的数据科学:Python 的基本原理》
这本由软件工程师和数据科学家 Joel Grus 撰写的数据科学书籍是理解数据科学中使用的基本算法的绝佳资源。
我们有时会使用算法,但并不全面了解它们的工作原理。库允许用几行代码实现常用算法,这很棒,因为它可以节省我们编写几行代码的时间。
然而,我们还需要了解算法背后的原理。本书展示了如何从头开始实现这些算法,这对理解算法很有帮助。它还能帮助你了解算法的优缺点。
模型创建是一个迭代过程,需要多次评估、调整和调整模型。因此,充分理解这些算法对于执行稳健且准确的评估非常重要。本书包含梯度下降、线性回归和决策树以及数据科学家用于创建机器学习模型的其他算法的部分。它还包含线性代数、统计和概率的部分,这些对于数据科学至关重要。
4. 《Python 机器学习入门:数据科学家指南》(作者:Andreas C. Müller 和 Sarah Guido)
机器学习是数据科学的一个子领域,具有广泛的应用,例如需求预测、预测性维护、零售库存优化、客户流失预测、通过客户细分进行有针对性的营销以及图像分类等。
在这本数据科学书籍中,作者阐述了机器学习的基本概念和应用。他们还评估了常用的机器学习算法的优点和缺点。
本书侧重于实践方面,而不是提供深入的理论知识。您将学习使用 Python 库创建机器学习应用程序的必要步骤。
您还可以找到有关评估和参数调整的非常有用的信息。这些活动需要在创建机器学习模型时付出大量努力,并且您可能需要进行多次试验,然后模型才能投入生产。
5. 《深度学习书籍(自适应计算和机器学习系列)》作者:Ian Goodfellow、Yoshua Bengio、Aaron Courville
这本书对于任何想要了解和执行机器学习或深度学习的人来说都是一本优秀的资源。根据埃隆·马斯克的说法,这是关于该主题的唯一一本综合性的书。
它是由数据科学领域的先驱者编写的。首先,Ian Goodfellow 是生成对抗网络 (GAN) 的创建者,这是一种主要用于生成建模的神经网络。
可以肯定地说,这本书并不适合初学者,特别是如果你没有技术背景的话。吸收和理解书中解释的概念需要时间。它们包括概率和信息论、优化算法、卷积网络和自然语言处理等。
如果您打算从事机器学习和深度学习,您应该全面了解本书中涵盖的概念。
6. François Chollet 撰写的《使用 Python 进行深度学习》
作者目前在谷歌担任研究员。他是基于 TensorFlow 构建的深度学习框架 Keras 的创建者。Keras 被深度学习和机器学习从业者广泛使用。
除了概念和理论信息外,本书还包含大量示例,对学习过程非常有帮助。它适合新手和经验丰富的机器学习从业者。
在介绍深度学习之后,本书还涵盖了常见的深度学习应用,例如图像分类和生成、时间序列预测以及文本分类和生成。
与上一本书相比,这本书更注重实践。我建议阅读这两本书,因为理论知识和实践经验同样重要。
利用优秀的数据科学书籍补充实践
数据科学书籍是很好的学习资源。但它们不能取代交互式在线课程。在学习软件工具或软件包时,实践才是让学习永久持久的关键。
提供多种互动在线课程,让您边学边练。Python 基础知识 课程是您学习 Python 的良好开端。如果您打算从事数据科学工作,那么您应该完成 Python 数据科学 课程。
发表评论 取消回复