r 中训练和测试数据的最小最大缩放归一化

数据预处理是机器学习中非常重要的一步，它可以帮助我们将原始数据转换为可供模型训练和测试的合适形式。在数据预处理的过程中，最小最大缩放和归一化是常用的方法之一，它能够将数据转化为特定的范围内，以便更好地适应模型的训练。

最小最大缩放是一种线性变换方法，通过对原始数据进行线性变换，将数据映射到一个指定的最小值和最大值之间。最小最大缩放的公式如下：

X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}

其中，\(X\) 是原始数据，\(X_{\text{min}}\) 和 \(X_{\text{max}}\) 分别是数据的最小值和最大值。最小最大缩放将数据线性映射到了 \([0, 1]\) 的范围内。

归一化是一种将数据缩放到单位范数（每个样本的范数为1）的方法。归一化的公式如下：

X_{\text{normalized}} = \frac{X}{\|X\|}

其中，\(X\) 是原始数据，\(\|X\|\) 表示数据的范数。归一化使得数据的模长为1，适用于需要计算样本之间相似度的场景。

下面我们通过一个具体的案例来展示最小最大缩放和归一化的使用。

假设我们有一个数据集，其中包含了房屋的面积和价格，我们想要将这些数据进行处理，以便用于训练和测试模型。首先，我们需要导入相关的库和数据集。代码如下：

python
import numpy as np
from sklearn.preprocessing import MinMaxScaler, normalize
# 假设我们的数据如下
X_train = np.array([[1000, 200000], [1500, 250000], [2000, 300000], [2500, 350000]])
X_test = np.array([[1200, 220000], [1800, 270000]])
# 创建最小最大缩放器
scaler = MinMaxScaler()
# 创建归一化器
normalizer = normalize(X_train)
# 对训练数据进行最小最大缩放
X_train_scaled = scaler.fit_transform(X_train)
# 对测试数据进行最小最大缩放
X_test_scaled = scaler.transform(X_test)

最小最大缩放的结果如下：

训练数据缩放后的结果为：

\begin{align*}

\text{面积} & \text{价格} \\

0 & 0 \\

0.3333 & 0.3333 \\

0.6666 & 0.6666 \\

1 & 1 \\

\end{align*}

测试数据缩放后的结果为：

\begin{align*}

\text{面积} & \text{价格} \\

0.0833 & 0.0833 \\

0.4166 & 0.4166 \\

\end{align*}

归一化的结果如下：

训练数据归一化后的结果为：

\begin{align*}

\text{面积} & \text{价格} \\

0.0049 & 0.9999 \\

\end{align*}

测试数据归一化后的结果为：

\begin{align*}

\text{面积} & \text{价格} \\

0.0054 & 0.9999 \\

\end{align*}

通过最小最大缩放和归一化，我们将数据缩放到了指定的范围内，使得模型的训练更加准确和稳定。同时，缩放后的数据也更适合用于不同特征之间的比较和相似度计算。

最小最大缩放和归一化是数据预处理中常用的方法之一，能够帮助我们将数据转化为合适的形式，以便更好地适应模型的训练。在实际应用中，根据具体的数据特点和模型需求，选择合适的缩放方法非常重要。

上一篇：仅在 Rails 中搭建视图文件。可能的下一篇：R 中距离矩阵的坐标

=

仅将字符串的第一个字符大写并保留其他字符（导轨）: 　　　　将字符串的第一个字符大写的案例代码与解释在许多编程语言中，有时您可能需要修改字符串的格式，例如将字符串中的第一个字符转换为大写，同时保留其他字符不变。这种操作可...... ...
仅基于外键属性的关联属于什么类: 　　　　# 仅基于外键属性的关联在数据库设计和管理中，关联是一种重要的概念，它允许我们在不同表之间建立连接，从而实现数据的联合查询和关联操作。其中，基于外键属性的关联是一...... ...
仅在创建和更新时验证 Rails 模型: 　　　　仅在创建和更新时验证 Rails 模型Rails 是一种流行的Web应用程序开发框架，它提供了强大的工具和约定来简化开发过程。在构建Rails应用程序时，数据模型的验证是确保数据完整...... ...
仅在 RubyMine 调试器打开的情况下获取 nilNilClass 的未定义方法“+”: 　　　　在RubyMine调试器中处理nil:NilClass的未定义方法“+”错误在Ruby编程中，当我们处理不同数据类型的变量时，经常会遇到各种错误。其中，一个常见的错误是"undefined method...... ...
R 中迄今为止的整数数据框[重复]: 　　　　数据分析中的整数数据框数据分析是现代社会中不可或缺的一部分，而整数数据框是数据分析中常用的一种数据结构。在R语言中，我们可以使用整数数据框来存储和处理整数类型的数...... ...
R 中跨越公元前的日期序列至公元: 　　　　在R中，我们可以使用lubridate包来处理跨越公元前的日期序列至公元。lubridate包提供了一组简单且一致的函数，用于解析、操作和格式化日期和时间数据。解析日期首先，让我们...... ...
R 中距离矩阵的坐标: 　　　　根据R中距离矩阵的坐标生成文章在数据分析和机器学习中，距离是一种常用的度量方式，用于衡量对象之间的相似性或差异性。在R语言中，我们可以使用距离矩阵来表示一组对象之...... ...
r 中训练和测试数据的最小最大缩放归一化: 　　　　数据预处理是机器学习中非常重要的一步，它可以帮助我们将原始数据转换为可供模型训练和测试的合适形式。在数据预处理的过程中，最小最大缩放和归一化是常用的方法之一，它...... ...
仅在 Rails 中搭建视图文件。可能的: 　　　　在Rails中仅使用视图文件搭建网页的可能性在Web开发中，Rails（也称为Ruby on Rails）是一个极为流行的开发框架，它提供了丰富的功能和便捷的开发体验。但是，你是否曾想过...... ...
仅包含存在的资产: 　　　　标题：智能投资：利用现有资产的智能方法在今天的金融市场，投资变得越来越多样化和复杂。许多投资者试图寻找方法来最大化他们的回报，同时降低风险。一个智能的方法是充分...... ...
仅删除多对多关系: 　　　　删除多对多关系：简化数据库结构的关键一步在数据库设计和管理中，多对多关系是常见的。这种关系允许两个实体之间存在多个连接，通常需要一个中间表来维护这些连接。然而，...... ...
什么被认为是好的规格适合初学者的 Rspec 示例: 　　　　# 编写适合初学者的 RSpec 示例RSpec 是一个用于 Ruby 编程语言的测试框架，它可以帮助开发者编写清晰、可维护的测试代码。在编写良好的 RSpec 规格时，有几个关键因素被认...... ...
R 中计算滚动实现波动率的更快方法: 　　　　计算滚动实现波动率是金融领域中常用的技术分析方法之一，用于衡量资产价格的波动性。在R语言中，我们可以使用一些优化的方法来加快计算滚动实现波动率的速度。在传统的方法...... ...
R 中计算 R2（R 平方）的函数: 　　　　R2（R平方）在统计学中是一种常用的评估模型拟合优度的指标。它可以用来衡量模型所解释的响应变量的方差与总方差之间的比例。在R语言中，我们可以使用`summary`函数来计算R...... ...
R 中舍入到下一个数量级的算法: 　　　　根据 R 中舍入到下一个数量级的算法在数据分析和统计学中，我们经常需要对数值进行舍入或四舍五入，以便更好地展示或处理数据。R语言作为一种强大的统计分析工具，提供了多...... ...