什么叫数据标准化 ?在Python中如何进行数据标准化?「必学」

主要内容:什么是数据标准化?在Python中如何进行数据标准化?一、Z标准化:实现中心化和正态分布;二、Min-Max:归一化;三、MaxAbs:最大绝对值标准化;四、RobustScaler。Python实例z-score;…

主要内容:

  • 什么是数据标准化?在Python中如何进行数据标准化?

一、Z标准化:实现中心化和正态分布;

二、Min-Max:归一化;

三、MaxAbs:最大绝对值标准化;

四、RobustScaler。

  • Python实例

z-score;

Min-Max;

MaxAbs;

RobustScaler。

数据标准化是数据预处理中非常重要的一步。在实际应用过程中,我们经常会遇到含有多种特征的数据集,这些特征常常有着不同的分布形态和区间,有着不同的量级(量纲),这很容易对我们的模型训练产生影响。而数据标准化,就是为了消除规模、特征和分布差异对模型的影响而存在。

另外,将各特征标准化之后,我们可以对其进行加权组合,从而生成新的指标,而原始数据往往不支持我们直接进行加权计算。

那么今天我们就来看一下,有哪些数据标准化的方法,以及它们分别如何在Python中实现。

一、Z标准化:实现中心化和正态分布

Z-Score标准化是基于原始数据的均值和标准差进行的标准化,其转化公式为:

其中,z是转化后的数据,x为转化前的数据,μ是整组数据的均值,σ是整组数据的标准差。

这种方法适合大多数类型的数据,其应用非常广泛。从公式里我们就可以看出来,转化之后其均值将变为0,而方差和标准差将变为1(考虑方差的公式),这部分如果不明白那就不妨在本子上推理一下哦。

二、Min-Max:归一化

Min-Max标准化方法会对原始数据进行线性变换,它的转换公式为:

很明显,当x为最大值时,会被转换为1;当x为最小值时,对应的新值为0;整组数据会分布在从0到1的区间内,而数据的分布形态并不会发生变化。

三、MaxAbs:最大绝对值标准化

在数据科学中,我们经常需要应对稀疏数据,MaxAbs方法对于稀疏数据有着良好的支持。MaxAbs标准化方法与Min-Max方法有些相似,其公式为:

即用每一个值除以整组数据中的绝对值的最大值,这样保留了原有数据的正负属性,且使数据落在了[-1,1]闭区间内。需要注意的是,先进行绝对值操作,然后选最大值,而不是先选择最大值,再求绝对值。我已经看到过很多文章把这里弄错了。举个例子,有一组数据[-0.01, -1, -2],如果我们先求最大值再求绝对值,别说归一化了,数据简直要钻到地缝里去了。

四、RobustScaler

有些时候,数据中会存在离群点(异常值)。这时如果我们使用z-score标准化就会导致数据很容易失去离群特征。这时我们就可以使用RobustScaler方法,它对于数据中心化和数据的缩放健壮性有着更强的参数调节能力。

Python实例

多说无益,放码过来,我们先导入必要的库、iris数据集,并进行一些必要的设置。

import numpy as np
import pandas as pd
from sklearn import preprocessing
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
from seaborn import load_dataset
sns.set()
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = 'SimHei'
iris = load_dataset('iris').drop('species', axis=1)
iris.head()

我们先观察下前两列数据的原始分布情况:

sns.jointplot(data=iris, color='m',
 x='sepal_length', 
 y='sepal_width');

Z-score

我们先来演示z标准化。

z_scaler = preprocessing.StandardScaler()
iris_z = z_scaler.fit_transform(iris)
iris_z = pd.DataFrame(iris_z)
sns.jointplot(data=iris_z, color='m', x=0, y=1);

可以看到,数据分布形态变化不大,但是数据收敛到了0轴周围。

我们看一下转换后数据的均值和标准差:

可以看到,虽然有一点点小误差(量级非常小),但是数据基本上是符合均值为0、标准差为1的。

Min-Max标准化

然后是Min-Max归一化方法:

mm_scaler = preprocessing.MinMaxScaler()
iris_mm = mm_scaler.fit_transform(iris)
iris_mm = pd.DataFrame(iris_mm)
sns.jointplot(data=iris_mm, color='m', x=0, y=1);

这次我们在保持原有数据分布特性的同时,将数据收敛到了0到1之间。

MaxAbs标准化

ma_scaler = preprocessing.MaxAbsScaler()
iris_ma = ma_scaler.fit_transform(iris)
iris_ma = pd.DataFrame(iris_ma)
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

由于iris数据集里没有负值,所以这里不能体现出[-1,1]的数据范围。我们为数据增加一些负值来看看:

iris_ma = pd.concat([iris_ma, iris_ma.applymap(lambda x: -x)])
sns.jointplot(data=iris_ma, color='m', x=0, y=1);

果然是[-1,1]呢,不过我们这里的操作只是为了演示,没有额外的意义。

RobustScaler

r_scaler = preprocessing.RobustScaler()
iris_r = ma_scaler.fit_transform(iris)
iris_r = pd.DataFrame(iris_r)
sns.jointplot(data=iris_r, color='m', x=0, y=1);

嗯……看起来跟MaxAbs没什么区别,这是因为这里不存在什么异常值。这个就留给你们自己来练习一下了!

 

版权声明:本文内容由网友提供,该文观点仅代表作者本人。本站(http://www.kuojiu.com/)仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3933150@qq.com 举报,一经查实,本站将立刻删除。

版权声明:本文内容由作者小仓提供,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至907991599@qq.com 举报,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.cangchou.com/178690.html

(0)
小仓的头像小仓

相关推荐

  • 无人问我粥可温,无人与我立黄昏全诗什么歌,无人问我粥可温,无人与我立黄昏全诗什么意思

      无人问我粥可温,无人与我立黄昏全诗什么歌,无人问我粥可温,无人与我立黄昏全诗什么意思是出自清朝沈复《浮生六记》,全诗:无人与我立黄昏,无人问我粥可温的。  关于无人问我粥可温,无人与我立黄昏全诗什么歌,无人问我粥可温,无人与我立黄昏全诗什么意思以及无人问我粥可温,无人与我立黄昏全诗什么歌,无…

    网络快讯 2023年11月26日
    0
  • 烧糊的锅怎么清洗掉黑垢(锅底烧糊的黑垢怎么去除)

    锅底烧糊的黑垢去除方法如下。方法一:将醋倒入锅中,可以先去除一部分的黑渍,再加入小苏打,用刷子刷洗锅面,用水冲洗干净,再倒入洗洁精,用木铲刮掉锅底的焦痕,如果焦痕顽固,可以重复多洗几次。方法二:把…,以下是对”烧糊的锅怎么清洗掉黑垢”的详细解答!文章目录1、锅底烧糊的黑垢怎么去除…

    2023年12月18日
    0
  • 怎么在手机淘宝网店(手机淘宝怎么开网店去哪里注册)

    开淘宝网店怎么注册?新手注册网店其实并不难,只要你年满16周岁有身份证银行就可以注册认证的,如果年龄不到肯定不能注册的,今天给大家说一下网店注册的详细流程,今天主要说一下手机端是怎么注册的,第一步、打开我们的手机淘宝这个软件,就是平时我们买东西的这个手机淘宝第二步、登录我们的淘宝账号,然…

    网络快讯 2023年12月13日
    0
  • 能杀死霸王龙的恐龙(谁才是真正的霸王龙终结者)

    能杀死霸王龙的恐龙(谁才是真正的霸王龙终结者)什么恐龙能杀死霸王龙?答案:霸王龙虽然是众多恐龙中的王者,但它并不是没有天敌的。在众多恐龙中,暴龙、三角龙和迅猛龙都有足够的能力猎杀霸王龙。霸王龙在所有恐龙种类中可以说是最出名的物种,霸王龙的凶猛和强壮也是公认的。那么这…

    网络快讯 2023年12月5日
    0
  • 看病人送什么花 看病人送什么花合适

    一直以来,鲜花被视为温馨祝福的“使者”,那么看望病人适合送什么花呢?探病送花,含有关怀、慰问、祝福之意,此时应选用花色、香味淡雅的鲜花,如唐菖蒲、兰花、金桔、六出花、玫瑰及康乃馨等。送给病人平常就偏爱的或生命力比较旺盛的花卉,可以让病人心情舒畅利于健康。绝不可送白的、…

    2023年10月19日
    0
  • 干洗店投资多少钱可以营业了?开个干洗店大概能投资多少钱?

    开设干洗店的投资费用因地理位置、店面规模、品牌选择、设备选购、装修水平等因素而有所不同。以下是一些可能涉及的投资成本和费用:1.加盟费用:如果选择加盟一个干洗店品牌,需要支付加盟费。加盟费用因品牌而异,可能从几万元到几十万元不等。2.租金和装修:店面租金会根据地理位置、面积和商圈的不同而变化…

    网络快讯 2024年2月26日
    0
  • 山东有哪些好吃的早餐 山东人的早餐标准有多高

    在山东,一顿有仪式感的早餐,是给即将开始的一天,一个人间值得的信号。早饭吃好,是成年人最高级的炫富。那么山东人的早餐标准有多高?山东有哪些好吃的早餐?下面小编带来介绍。山东人的早餐标准有多高一座城市的烟火之气,或许就从早餐之中慢慢散发,让你一整天充满活力!没有一锅热气腾腾的羊肉汤,我们大…

    网络快讯 2023年12月16日
    0
  • 两个cc反过来是什么牌子包包的标志 真皮包包裂皮了怎么办

    摘要这篇文章帮你解决两个cc反过来是什么牌子包包多少钱(两个cc反过来是什么牌子包包不是香奈儿)的问题,答案:两个cc反过来是什么牌子包包两个cc反过来是名为香奈儿牌子的包包。该品牌来自于…很多的大牌包包都有自己专属的标志,那么两个cc反过来是什么牌子包包的标志?真皮包包裂皮了怎么办?下面…

    网络快讯 2023年11月24日
    0
  • 怎么断夜奶正确的方法(宝宝断夜奶最全知识,夜里醒来要抱要奶哭闹试试这些方法!)

    说到断夜奶是很多妈妈都有话说,各种吐槽,而且有的妈妈反反复复的打算断夜奶好多次,但是一直都没有成功,只要孩子一哭立马心软,那有没有什么好的方法可以彻底断夜奶呢?细数“夜奶”的这些危害!1、宝宝睡眠不足。频繁夜醒吃奶,宝宝的生长发育、神经系统发育都受影响,食欲、情绪、整体状态都不佳。2、妈…

    网络快讯 2023年11月13日
    0
  • 怎么查看电脑ip地址和mac地址

    通过命令行查看本机IP地址如果想查看本级的ip地址,可以通过不同的管理工具进行查看,但是命令行是最便捷和最准确的ip地址查询方式。特别是针对自动获取ip地址的情况。另外根据次命令可以查看本机的mac地址。mac地址是联网设备的唯一地址,任何联网设备均有唯一的mac地址,例如电脑、路由器、手机…

    网络快讯 2023年11月15日
    0

发表回复

登录后才能评论