```markdown

使用 `pd.read_excel` 读取 XLSX 文件

在数据科学和数据分析中，处理 Excel 文件是一项常见的任务。Pandas 提供了强大的工具来简化这一过程，pd.read_excel 函数是用于读取 Excel 文件（包括 .xlsx 格式）的主要方法。

1. 安装所需的依赖

要使用 pd.read_excel，你首先需要安装 pandas 和 openpyxl（Excel 文件读取的引擎）。可以通过以下命令安装：

bash pip install pandas openpyxl

2. 基本用法

最简单的用法是将 Excel 文件路径传递给 pd.read_excel：

```python import pandas as pd

读取 XLSX 文件

df = pd.read_excel('file.xlsx')

查看前几行数据

print(df.head()) ```

3. 读取特定的工作表

如果 Excel 文件包含多个工作表，可以使用 sheet_name 参数来指定要读取的工作表：

```python

读取指定的工作表

df = pd.read_excel('file.xlsx', sheet_name='Sheet1') ```

你也可以使用工作表的索引来指定读取哪个工作表（索引从 0 开始）：

```python

通过索引读取工作表

df = pd.read_excel('file.xlsx', sheet_name=0) ```

4. 读取多个工作表

如果你想同时读取多个工作表，可以将 sheet_name 设置为一个列表：

```python

读取多个工作表

dfs = pd.read_excel('file.xlsx', sheet_name=['Sheet1', 'Sheet2'])

打印两个工作表的数据

print(dfs['Sheet1'].head()) print(dfs['Sheet2'].head()) ```

5. 读取特定的列

有时你只需要 Excel 文件中的某些列，可以通过 usecols 参数来指定需要读取的列：

```python

读取指定的列

df = pd.read_excel('file.xlsx', usecols=['A', 'C', 'D']) ```

你也可以使用列的索引来选择列：

```python

通过列索引选择

df = pd.read_excel('file.xlsx', usecols=[0, 2, 3]) ```

6. 跳过特定行

如果你需要跳过 Excel 文件中的某些行，可以使用 skiprows 参数。例如，如果你想跳过前两行：

```python

跳过前两行

df = pd.read_excel('file.xlsx', skiprows=2) ```

如果需要跳过多行，可以传递一个包含行号的列表：

```python

跳过多行

df = pd.read_excel('file.xlsx', skiprows=[0, 1, 5]) ```

7. 设置数据类型

有时你可能希望在读取时设置列的数据类型。可以通过 dtype 参数来指定：

```python

设置数据类型

df = pd.read_excel('file.xlsx', dtype={'Column1': str, 'Column2': float}) ```

8. 读取 Excel 文件的元数据

除了读取工作表的数据，pd.read_excel 还允许你获取 Excel 文件的元数据。例如，获取文件中的工作表名称：

```python

获取所有工作表的名称

xls = pd.ExcelFile('file.xlsx') print(xls.sheet_names) ```

9. 处理空值

如果 Excel 文件包含空值，Pandas 会自动将这些空值转换为 NaN。你可以通过 na_values 参数来指定其他值被视为空值：

```python

将特定值视为空值

df = pd.read_excel('file.xlsx', na_values=['NA', 'n/a']) ```

10. 保存 Excel 文件

除了读取 Excel 文件，Pandas 还允许你将 DataFrame 保存为 Excel 文件。使用 to_excel 方法即可：

```python

保存为 Excel 文件

df.to_excel('output.xlsx', index=False) ```

结论

pd.read_excel 是一个功能强大的工具，可以轻松读取和处理 Excel 文件。通过指定不同的参数，你可以灵活地控制读取的数据，处理不同格式和需求的 Excel 文件。 ```

热搜
行业
快讯
专题

使用 pd.read_excel 读取 XLSX 文件

1. 安装所需的依赖

2. 基本用法

读取 XLSX 文件

查看前几行数据

3. 读取特定的工作表

读取指定的工作表

通过索引读取工作表

4. 读取多个工作表

读取多个工作表

打印两个工作表的数据

5. 读取特定的列

读取指定的列

通过列索引选择

6. 跳过特定行

跳过前两行

跳过多行

7. 设置数据类型

设置数据类型

8. 读取 Excel 文件的元数据

获取所有工作表的名称

9. 处理空值

将特定值视为空值

10. 保存 Excel 文件

保存为 Excel 文件

结论

使用 `pd.read_excel` 读取 XLSX 文件