Pandas 缺失值：用最接近的非 NaN 值填充

使用最接近的非 NaN 值填充 Pandas 缺失值

在数据分析和处理中，经常会遇到缺失值的情况。缺失值是指数据集中的某些值缺失或未记录的情况。处理缺失值是数据预处理的重要步骤之一，因为缺失值会对后续的数据分析和建模造成影响。在 Pandas 中，我们可以使用不同的方法来处理缺失值，其中一种常用的方法是使用最接近的非 NaN 值来填充缺失值。

示例代码：

首先，我们需要导入 Pandas 库并创建一个包含缺失值的数据集。假设我们有一个包含学生信息的数据集，其中包括学生的姓名、年龄和成绩。这个数据集中可能存在一些学生的年龄和成绩信息缺失。

python
import pandas as pd
import numpy as np
data = {'姓名': ['张三', '李四', '王五', '赵六', '刘七'],
        '年龄': [20, np.nan, 22, np.nan, 25],
        '成绩': [80, 90, np.nan, np.nan, 95]}
df = pd.DataFrame(data)

接下来，我们可以使用 Pandas 的 `fillna()` 方法来填充缺失值。其中，参数 `method` 可以设置为 `ffill`，表示使用最接近的前一个非 NaN 值填充缺失值。

python
df_filled = df.fillna(method='ffill')

运行以上代码后，缺失值将被最接近的前一个非 NaN 值填充。对于示例数据集，填充后的结果如下：

姓名年龄成绩

0 张三 20.0 80.0

1 李四 20.0 90.0

2 王五 22.0 90.0

3 赵六 22.0 90.0

4 刘七 25.0 95.0

从结果可以看出，缺失值被最接近的前一个非 NaN 值填充。在这个例子中，第二行的年龄和成绩缺失值被填充为前一行的对应值。

使用平均值填充缺失值

除了使用最接近的非 NaN 值填充缺失值外，我们还可以使用其他的填充方法。其中一种常用的方法是使用平均值来填充缺失值。这在一些连续型的数值特征中比较常见，例如年龄、身高等。

python
df_filled_mean = df.fillna(df.mean())

以上代码中，`fillna()` 方法的参数 `value` 设置为 `df.mean()`，表示使用每列的平均值来填充缺失值。运行后，结果如下：

姓名年龄成绩

0 张三 20.000000 80.0

1 李四 22.333333 90.0

2 王五 22.000000 88.333333

3 赵六 22.333333 88.333333

4 刘七 25.000000 95.0

从结果可以看出，缺失值被每列的平均值填充。在这个例子中，年龄列的缺失值被平均年龄值 22.3333 填充，成绩列的缺失值被平均成绩值 88.3333 填充。

使用插值方法填充缺失值

另一种常用的填充缺失值的方法是使用插值方法。插值方法可以根据已有数据的变化趋势来推断缺失值，并填充合适的值。

python
df_filled_interpolate = df.interpolate()

以上代码中，`interpolate()` 方法使用默认的线性插值方法来填充缺失值。运行后，结果如下：

姓名年龄成绩

0 张三 20.00 80.0

1 李四 20.50 90.0

2 王五 22.00 92.5

3 赵六 23.00 95.0

4 刘七 25.00 95.0

从结果可以看出，缺失值被根据已有数据的变化趋势进行插值填充。在这个例子中，年龄和成绩列的缺失值分别被插值为合适的值。

处理缺失值是数据分析和预处理的重要步骤之一。在 Pandas 中，可以使用不同的方法来填充缺失值。本文介绍了使用最接近的非 NaN 值、平均值和插值方法来填充缺失值的示例代码，并展示了填充后的结果。根据实际情况，选择合适的填充方法可以提高数据的准确性和可靠性。

上一篇：pandas 统计每个日期过去 7 天的值下一篇：Pandas 群体中的独特价值

=

Pandas 连接合并连接两个数据帧: 　　　　连接/合并/连接两个数据帧在数据分析和处理过程中，我们经常需要将多个数据集合并在一起，以便进行更全面的分析和洞察。在Python中，使用Pandas库可以方便地实现数据帧的连...... ...
Pandas 连接具有不同列的数据帧：AttributeError：“NoneType”对象没有属性“is_extension”: 　　　　使用Pandas连接具有不同列的数据帧：AttributeError：“NoneType”对象没有属性“is_extension”在数据分析和处理中，Pandas是一个非常有用的Python库。它提供了许多数据结...... ...
pandas 返回数据框中不存在于其他数据框中的列: 　　　　是一个强大的Python数据分析工具，它提供了丰富的功能来处理和分析数据。在使用pandas进行数据处理时，经常会遇到需要比较多个数据框中的列的情况。我们可能想要找出一个数...... ...
Pandas 返回“传递的标头名称与 usecols 不匹配”错误: 　　　　解决 Pandas 返回“传递的标头名称与 usecols 不匹配”错误在使用 Pandas 进行数据处理和分析时，经常会遇到一些错误和异常。其中之一是当我们在读取数据时，使用了 `useco...... ...
Pandas 过滤器与 loc 方法: 　　　　使用Pandas过滤器与loc方法对数据进行筛选和定位是数据分析中常用的技巧之一。Pandas是Python中一个强大的数据处理库，它提供了丰富的函数和方法来处理和操作数据。通过使用...... ...
pandas 过滤和比较日期: 　　　　使用pandas过滤和比较日期在数据分析和处理过程中，经常需要对日期进行过滤和比较。pandas是一个强大的数据分析工具，提供了灵活且高效的日期处理功能。本文将介绍如何使用...... ...
Pandas 过滤具有特定年份的数据帧行: 　　　　Pandas 过滤具有特定年份的数据帧行Pandas 是一个强大的数据分析工具，可以使数据处理变得更加简单和高效。在处理大型数据集时，我们经常需要根据特定的条件过滤数据。本文...... ...
Pandas 过滤串联的多个子字符串: 　　　　如何使用 Pandas 过滤串联的多个子字符串在数据处理和分析中，我们经常需要对文本数据进行过滤和筛选。而在某些情况下，我们可能需要同时匹配多个子字符串。在 Python 的数...... ...
Pandas 过滤 - 非索引列上的 Between_time: 　　　　使用Pandas库进行数据处理和分析是数据科学家们经常使用的工具之一。其中，过滤数据是数据处理的一个重要环节。在Pandas中，我们可以使用`between_time()`函数来过滤非索引...... ...
pandas 过去五分钟的滚动总和: 　　　　使用Pandas计算过去五分钟的滚动总和在数据分析和处理的过程中，经常会遇到需要计算一定时间范围内的滚动总和的需求。比如，我们可能需要计算过去五分钟内某个传感器的数据...... ...
Pandas 转换列表的不一致行为: 　　　　标题：Pandas 转换列表的不一致行为Pandas 是一个强大的数据分析和处理工具，它提供了各种函数和方法来处理和转换数据。然而，在使用 Pandas 进行列表转换时，我们可能会遇...... ...
Pandas 跨记录扩展 json 字段: 　　　　使用Pandas进行数据处理和分析是数据科学领域中常用的工具之一。而在数据集中，经常会遇到包含JSON字段的情况。对于这种情况，Pandas提供了一种便捷的方法来跨记录扩展JSON...... ...
Pandas 跨列求和并将每个单元格除以该值: 　　　　在数据分析和处理的领域中，Pandas是一个非常强大和流行的Python库。它提供了丰富的功能和方法，使得数据处理变得更加简单和高效。其中一个常见的需求是对多列进行求和，并...... ...
Pandas 读取问题，0xff 在位置 0: 　　　　使用Pandas读取问题：0xff 在位置0在数据分析和处理中，Pandas是一个非常强大和受欢迎的Python库。它提供了易于使用的数据结构和数据分析工具，使我们能够高效地处理和分析...... ...
Pandas 读取没有标题或索引的数据: 　　　　在使用Pandas进行数据处理时，我们经常需要读取没有标题或索引的数据。这种情况下，我们可以通过一些方法来处理这些数据，并进行后续的分析和操作。读取没有标题或索引的数...... ...