您使用过 Excel 文件吗?我将向您展示如何将它们读入 Python,以便您可以自动执行与 Excel 相关的任务。
如果您是数据分析师、数据工程师或以其他方式编写脚本来自动执行简单任务的人,那么您很有可能已经使用过或将要使用 Excel 文件。在本文中,我们将介绍如何将 Excel 文件读入 Python。您还可以查看我们的课程“如何使用
How to Read and Write Excel Files in Python
以了解有关库中完整功能的更多信息
openpyxl
。
如果您有兴趣建立自己的技能以成为一名数据科学家,请务必查看我们的 Introduction to Python for Data Science 课程,您将在其中了解有关 Python 及其工具的更多信息,以帮助您开始数据科学之旅。
什么是 Excel 文件?
Microsoft Excel 是 Microsoft 为 Windows、macOS、Android 和 iOS 开发的电子表格应用程序。电子表格用于存储和分析以行和列为结构的表格数据。
Excel 是最广泛使用的数据交换格式之一。它之所以如此受欢迎,是因为 Windows 操作系统的使用非常普遍。
Excel 在非技术人员中也很受欢迎。原因如下:
- 它很容易使用。
- 它具有强大的功能,使可视化和分析更容易。
- 大多数数据库和数据整理工具都有与 Excel 协作的接口。
让我们看一下 Excel 文件中找到的数据示例,以便更好地理解其结构。
订购日期 | 物品 | 单位 | 单位成本 |
---|---|---|---|
2020 年 1 月 6 日 | 铅笔 | 100 | 0.88 |
2020 年 1 月 23 日 | 椅子 | 10 | 22.33 |
2020 年 5 月 22 日 | 桌子 | 2 | 45.42 |
这是我们在 Excel 文件中发现的最常见的数据结构之一。作为一名数据科学家,你可能要使用这种结构的数据来分析公司销售情况。数据可以来自另一个部门,也可以直接来自数据库。将数据直接读入 Python 可以使分析任务变得简单得多,尤其是在数据量很大的情况下。
数据科学家的另一项常见任务是可视化或使数据更易于呈现。数据科学家经常获取公司生成的数据,并将分析结果传达给管理人员和其他非技术员工。虽然 Excel 提供了类似的功能,但 Python 的数据科学库发展迅速,人们越来越倾向于使用 Python。如果您不相信,我邀请您查看以下 博客文章 ,其中提供了更多理由说明为什么除了 Excel 之外,Python 也值得学习。
举个例子,当我帮助女朋友自动执行一些工作任务时,我处理了大量 Excel 文件。他们手动读取多个 Excel 和 CSV 文件中的数据来创建报告,并与客户共享这些报告。整个任务集过去每个月要花近 4 名同事的 2 天时间。借助库
xlrd
和一些谷歌搜索,我能够以最少的用户输入自动执行所有这些任务,并为每个客户创建所有报告。
正如本例所示,使用多种文件格式是很常见的。CSV 是另一种非常常见的文件格式;请查看 本文 ,我们将展示如何将 CSV 文件读入 Python。
如何使用 Python 处理 Excel 文件
许多 Python 库可用于轻松读取 Excel 文件。一些选项是
openpyxl
,
pandas
、和
xlrd
。我们将重点介绍如何使用
openpyxl
库将 Excel 文件读取到 Python。
我们首先
load_workbook()
从
openpyxl
库中导入函数来读取 Excel 文件。然后我们将要读取的文件的名称作为参数传递给此函数。
from openpyxl import load_workbook
name = 'name_of_the_file.xlsx'
wb = load_workbook(name)
使用此代码片段,我们可以将 Excel 文件读入 Python。Excel 文件可能包含许多工作表,但有一种方便的方法可以检查有多少个工作表。我们可以简单地使用
wb.sheetnames
以列表形式获取每个工作表的名称。例如,它们可以是
sheet1
,
sheet2
、 和
sheet3
。我们可以选择使用哪一个,类似于我们在 Python 中索引字典的方式。
现在我们可以做更多的事情来
openpyxl
遍历此文件的行并打印以空格分隔的每行。请记住,这将打印列名作为第一行。
for row in wb["SalesOrders"].iter_rows():
for cell in row:
print(cell.value, end=" ")
print("")
在上面的代码片段中,我们
iter_rows()
表上使用函数
wb["SalesOrders"]
。这将返回一个包含工作表所有行的可迭代对象,我们可以在循环中使用它
for
。然后我们在第二个 for 循环中迭代行中的所有单元格。我们只需使用即可访问每个单元格中的值
cell.value
.
现在你可以将 Excel 文件读入 Python
读取 Excel 文件可让您对手头的数据进行很多操作,例如可视化、分析、机器学习,甚至创建结构化演示文稿。该
openpyxl
库还提供许多其他功能。如果您想了解更多信息并同时获得实践经验,请查看
Python For Data Science
。此课程包括使用多种不同的文件格式,包括我们的交互式课程
How to Read and Write Excel Files in Python
,并教您成为数据科学家所需的所有技能。
实践经验是数据科学家最重要的素质之一。对于大多数职位,您需要通过技术面试或模拟项目来展示您的知识。 如果您想在面试前复习一下您的知识, 我们针对数据科学家的常见 Python 面试问题列表
发表评论 取消回复