academia/machinelearning/ml_course/Python-数据探索之可视化分析

Posted on 05-17-2020

Python 数据可视化分析

介绍

在机器学习领域中，可视化是十分重要的。在开始一项新任务时，通过可视化手段探索数据能更好地帮助人们把握数据的要点。在分析模型表现和模型报告的结果时，可视化能使分析显得更加生动鲜明。有时候，为了理解复杂的模型，我们还可以将高维空间映射为视觉上更直观的二维或三维图形。

总而言之，可视化是一个相对快捷的从数据中挖掘信息的手段。本文将使用 Pandas、Matplotlib、seaborn 等流行的库，带你上手可视化。

知识点

单变量可视化的常用方法
多变量可视化的常用方法
t-SNE

数据集

首先使用 import 载入相关依赖。

import numpy as np
import pandas as pd
import seaborn as sns
sns.set()

在第一篇文章中，我们使用的是某电信运营商的客户离网数据集，本次实验仍旧使用这个数据集。

1	df = pd.read_csv('./data/telecom_churn.csv')

df.head()

	State	Account length	Area code	International plan	Voice mail plan	Number vmail messages	Total day minutes	Total day calls	Total day charge	Total eve minutes	Total eve calls	Total eve charge	Total night minutes	Total night calls	Total night charge	Total intl minutes	Total intl calls	Total intl charge	Customer service calls	Churn
0	KS	128	415	No	Yes	25	265.1	110	45.07	197.4	99	16.78	244.7	91	11.01	10.0	3	2.70	1	False
1	OH	107	415	No	Yes	26	161.6	123	27.47	195.5	103	16.62	254.4	103	11.45	13.7	3	3.70	1	False
2	NJ	137	415	No	No	0	243.4	114	41.38	121.2	110	10.30	162.6	104	7.32	12.2	5	3.29	0	False
3	OH	84	408	Yes	No	0	299.4	71	50.90	61.9	88	5.26	196.9	89	8.86	6.6	7	1.78	2	False
4	OK	75	415	Yes	No	0	166.7	113	28.34	148.3	122	12.61	186.9	121	8.41	10.1	3	2.73	3	False

最后一个数据列 Churn 离网率是我们的目标特征，它是布尔变量，其中 True 表示公司最终丢失了此客户，False 表示客户被保留。稍后，将构建基于其他特征预测 Churn 特征的模型。

单变量可视化

单变量（univariate）分析一次只关注一个变量。当我们独立地分析一个特征时，通常最关心的是该特征值的分布情况。下面考虑不同统计类型的变量，以及相应的可视化工具。

数量特征

数量特征（quantitative feature）的值为有序数值。这些值可能是离散的，例如整数，也可能是连续的，例如实数。

直方图和密度图

直方图依照相等的间隔将值分组为柱，它的形状可能包含了数据分布的一些信息，如高斯分布、指数分布等。当分布总体呈现规律性，但有个别异常值时，你可以通过直方图辨认出来。当你使用的机器学习方法预设了某一特定分布类型（通常是高斯分布）时，知道特征值的分布是非常重要的。

最简单的查看数值变量分布的方法是使用 DataFrame 的方法绘制直方图。

1 2	features = ['Total day minutes', 'Total intl calls'] df[features].hist(figsize = (10, 4))

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x12e3076d0>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x12f4cbe90>]],
      dtype=object)

png

上图表明，变量 Total day minutes 每日通话时长呈高斯分布，而 Total intl calls 总国际呼叫数显著右倾（它右侧的尾巴更长）。

密度图（density plots），也叫核密度图（，KDE）是理解数值变量分布的另一个方法。它可以看成是直方图平滑（）的版本。相比直方图，它的主要优势是不依赖于柱的尺寸，更加清晰。

让我们为上面两个变量创建密度图。

1 2	df[features].plot(kind='density', subplots=True, layout=(1,2), sharex=False, figsize=(10, 4), legend=False, title=features)

array([[<matplotlib.axes._subplots.AxesSubplot object at 0x133bcc050>,
        <matplotlib.axes._subplots.AxesSubplot object at 0x1343f1ad0>]],
      dtype=object)

png

1	sns.distplot(df['Total day calls'])

<matplotlib.axes._subplots.AxesSubplot at 0x12e4f8810>

png

当然，还可以使用 seaborn 的方法观测数值变量的分布。例如，Total day minutes 每日通话时长的分布。默认情况下，该方法将同时显示直方图和密度图。

1	sns.distplot(df['Total intl calls'])

<matplotlib.axes._subplots.AxesSubplot at 0x12e5134d0>

png

上图中直方图的柱形高度已进行归一化处理，表示的是密度而不是样本数。

箱型图

箱形图的主要组成部分是箱子（box），须（whisker）和一些单独的数据点（离群值），分别简单介绍如下：

箱子显示了分布的四分位距，它的长度由 $25th , （\text{Q1，下四分位数}）$ 和 $75th , （\text{Q3，上四分位数}）$ 决定，箱中的水平线表示中位数（$50%$）。
须是从箱子处延伸出来的线，它们表示数据点的总体散布，具体而言，是位于区间 $（\text{Q1} - 1.5 \cdot \text{IQR}, \text{Q3} + 1.5 \cdot \text{IQR}）$的数据点，其中 $\text{IQR} = \text{Q3} - \text{Q1}$，也就是四分位距。
离群值是须之外的数据点，它们作为单独的数据点，沿着中轴绘制。

使用 seaborn 的 boxplot() 方法绘制箱形图。

1	sns.boxplot(df['Total intl calls'])

<matplotlib.axes._subplots.AxesSubplot at 0x12e6e1750>

png

上图表明，在该数据集中，大量的国际呼叫是相当少见的。

提琴形图

我们最后考虑的分布图形是提琴形图（violin plot）。提琴形图和箱形图的区别是，提琴形图聚焦于平滑后的整体分布，而箱形图显示了单独样本的特定统计数据。

使用 violinplot() 方法绘制提琴形图。下图左侧是箱形图，右侧是提琴形图。

import matplotlib.pyplot as plt

_, ax = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.boxplot(df['Total intl calls'], ax=ax[0])
sns.violinplot(df['Total intl calls'], ax=ax[1])

<matplotlib.axes._subplots.AxesSubplot at 0x1380219d0>

png

数据描述

除图形工具外，还可以使用 DataFrame 的方法来获取分布的精确数值统计。

1	df[features].describe()

	Total day minutes	Total intl calls
count	3333.000000	3333.000000
mean	179.775098	4.479448
std	54.467389	2.461214
min	0.000000	0.000000
25%	143.700000	3.000000
50%	179.400000	4.000000
75%	216.400000	6.000000
max	350.800000	20.000000

describe() 的输出基本上是自解释性的，25%，50% 和 75% 是相应的百分数。

类别特征和二元特征

类别特征（categorical features take）反映了样本的某个定性属性，它具有固定数目的值，每个值将一个观测数据分配到相应的组，这些组称为类别（category）。如果类别变量的值具有顺序，称为有序（ordinal）类别变量。

二元（binary）特征是类别特征的特例，其可能值有 2 个。

频率表

让我们查看一下目标变量 Churn 离网率的分布情况。首先，使用方法得到一张频率表。

1	df['Churn'].value_counts()

False    2850
True      483
Name: Churn, dtype: int64

上表显示，该数据集的 Churn 有 2850 个属于 False（Churn==0），有 483 个属于 True（Churn==1），数据集中忠实客户（Churn==0）和不忠实客户（Churn==1）的比例并不相等。我们将在以后的文章中看到，这种数据不平衡的情况会导致建立的分类模型存在一定的问题。在这种情况下，构建分类模型可能需要加重对「少数数据（在这里是 Churn==1）分类错误」这一情况的惩罚。

条形图

频率表的图形化表示是条形图。创建条形图最简单的方法是使用 seaborn 的函数。让我们来画出两个分类变量的分布。

fig, ax = plt.subplots(1, 2, figsize=[10, 4])

sns.countplot(df['Churn'], ax=ax[0])
sns.countplot(df['Customer service calls'], ax=ax[1])

<matplotlib.axes._subplots.AxesSubplot at 0x1382242d0>

png

条形图和直方图的区别如下：

直方图适合查看数值变量的分布，而条形图用于查看类别特征。
直方图的 X 轴是数值；条形图的 X 轴可能是任何类型，如数字、字符串、布尔值。
直方图的 X 轴是一个笛卡尔坐标轴；条形图的顺序则没有事先定义。

上左图清晰地表明了目标变量的失衡性。上右图则表明大部分客户最多打了 2-3 个客服电话就解决了他们的问题。不过，既然想要预测少数数据的分类（Churn==1），我们可能对少数不满意的客户的表现更感兴趣。所以让我们尝试一下更有趣的可视化方法：多变量可视化，看能否对预测有所帮助。

多变量可视化

多变量（multivariate）图形可以在单张图像中查看两个以上变量的联系，和单变量图形一样，可视化的类型取决于将要分析的变量的类型。

先来看看数量变量之间的相互作用。

散点图

散点图（scatter plot）将两个数值变量的值显示为二维空间中的笛卡尔坐标（Cartesian coordinate）。通过 matplotlib 库的方法可以绘制散点图。

1	plt.scatter(df['Total day minutes'], df['Total night minutes'])

<matplotlib.collections.PathCollection at 0x139a17c10>

png

我们得到了两个正态分布变量的散点图，看起来这两个变量并不相关，因为上图的形状和轴是对齐的。

seaborn 库的方法在绘制散点图的同时会绘制两张直方图，某些情形下它们可能会更有用。

1	sns.jointplot(df['Total day minutes'], df['Total night minutes'])

<seaborn.axisgrid.JointGrid at 0x139888cd0>

png

jointplot() 方法还可以绘制平滑过的散点直方图。

1	sns.jointplot(df['Total day minutes'], df['Total night minutes'], kind='kde', color='g')

<seaborn.axisgrid.JointGrid at 0x139dc1890>

png

上图基本上就是之前讨论过的核密度图的双变量版本。

散点图矩阵

在某些情形下，我们可能想要绘制如下所示的散点图矩阵（scatterplot matrix）。它的对角线包含变量的分布，并且每对变量的散点图填充了矩阵的其余部分。

1 2	# %config InlineBackend.figure_format = 'png' sns.pairplot(df[numerical])

<seaborn.axisgrid.PairGrid at 0x139cb5810>

png

数量和类别

为了让图形更有趣一点，可以尝试从数值和类别特征的相互作用中得到预测 Churn 的新信息，更具体地，让我们看看输入变量和目标变量 Churn 的关系。使用方法的 hue 参数来指定感兴趣的类别特征。

1	sns.lmplot('Total day minutes', 'Total night minutes', data=df, hue='Churn', fit_reg=False)

<seaborn.axisgrid.FacetGrid at 0x13e7df950>

png

看起来不忠实客户偏向右上角，也就是倾向于在白天和夜间打更多电话的客户。当然，这不是非常明显，我们也不会基于这一图形下任何确定性的结论。

现在，创建箱形图，以可视化忠实客户（Churn=0）和离网客户（Churn=1）这两个互斥分组中数值变量分布的统计数据。

numerical.append('Customer service calls')
print(numerical)
fig, axes = plt.subplots(3, 4, figsize=[10, 7])
for index, feat in enumerate(numerical):
    ax = axes[int(index / 4), index % 4]
    sns.boxplot(df['Churn'], df[feat], ax=ax)
    ax.set_xlabel('')
    ax.set_ylabel(feat)
fig.tight_layout()

['Total day minutes', 'Total night minutes', 'Number vmail messages', 'Total eve calls', 'Account length', 'Total intl calls', 'Total eve minutes', 'Total night calls', 'Total day calls', 'Total intl minutes', 'Customer service calls', 'Customer service calls', 'Customer service calls', 'Customer service calls', 'Customer service calls', 'Customer service calls', 'Customer service calls', 'Customer service calls']



---------------------------------------------------------------------------

IndexError                                Traceback (most recent call last)

<ipython-input-47-539701aff8ff> in <module>
      3 fig, axes = plt.subplots(3, 4, figsize=[10, 7])
      4 for index, feat in enumerate(numerical):
----> 5     ax = axes[int(index / 4), index % 4]
      6     sns.boxplot(df['Churn'], df[feat], ax=ax)
      7     ax.set_xlabel('')


IndexError: index 3 is out of bounds for axis 0 with size 3

png

上面的图表表明，两组之间分歧最大的分布是这三个变量：Total day minutes 日通话分钟数、Customer service calls 客服呼叫数、Number vmail messages 语音邮件数。在后续的课程中，我们将学习如何使用随机森林（Random Forest）或梯度提升（Gradient Boosting）来判定特征对分类的重要性，届时可以清晰地看到，前两个特征对于离网预测模型而言确实非常重要。

创建箱型图和提琴形图，查看忠实客户和不忠实客户的日通话分钟数。

_, axes = plt.subplots(2, 2, sharex=True, sharey=True, figsize=[10, 8])
sns.boxplot(x='Churn', y='Total day minutes', data=df, ax=axes[0][0])
sns.violinplot(x='Churn', y="Total day minutes", data=df, ax=axes[0][1])
sns.boxplot(x='Churn', y='Total night minutes', data=df, ax=axes[1][0])
sns.violinplot(x='Churn', y="Total night minutes", data=df, ax=axes[1][1])

<matplotlib.axes._subplots.AxesSubplot at 0x140f70290>

png

上图表明，不忠实客户倾向于打更多的电话。

我们还可以发现一个有趣的信息：平均而言，离网客户是通讯服务更活跃的用户。或许是他们对话费不满意，所以预防离网的一个可能措施是降低通话费。当然，公司需要进行额外的经济分析，以查明这样做是否真的有利。

当想要一次性分析两个类别维度下的数量变量时，可以用 seaborn 库的函数。例如，在同一图形中可视化 Total day minutes 日通话分钟数和两个类别变量（Churn 和 Customer service calls）的相互作用。

1 2	sns.catplot(x='Churn', y='Total day minutes', col='Customer service calls', data=df[df['Customer service calls'] < 8], kind='box', col_wrap=4, height=3, aspect=.8)

<seaborn.axisgrid.FacetGrid at 0x140728250>

png

上图表明，从第 4 次客服呼叫开始，Total day minutes 日通话分钟数可能不再是客户离网（Churn==1）的主要因素。也许，除了我们之前猜测的话费原因，还有其他问题导致客户对服务不满意，这可能会导致日通话分钟数更少。

类别与类别

正如之前提到的，变量 Customer service calls 客服呼叫数的重复值很多，因此，既可以看成数值变量，也可以看成有序类别变量。之前已通过计数图（count plot）查看过它的分布了，现在我们感兴趣的是这一有序特征和目标变量 Churn 离网率之间的关系。

使用 countplot() 方法查看客服呼叫数的分布，这次传入 hue=Churn 参数，以便在图形中加入类别维度。

1	sns.countplot(x='Customer service calls', hue='Churn', data=df[df["Customer service calls"] < 10])

<matplotlib.axes._subplots.AxesSubplot at 0x140cb7990>

png

上图表明，呼叫客服达到 4 次以上后，离网率显著增加了。

使用 countplot() 方法查看 Churn 离网率和二元特征 International plan 国际套餐、Voice mail plan 语音邮件套餐的关系。

_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x='International plan', hue='Churn', data=df, ax=axes[0])
sns.countplot(x='Voice mail plan', hue='Churn', data=df, ax=axes[1])

<matplotlib.axes._subplots.AxesSubplot at 0x142344290>

png

上图表明，开通国际套餐后，离网率会高很多，即 International plan 是否开通国际套餐是一个重要的特征。我们在 Vocie mail plan 语音邮件套餐特征上没有观察到类似的效果。

交叉表

除了使用图形进行类别分析之外，还可以使用统计学的传统工具：交叉表（cross tabulation），即使用表格形式表示多个类别变量的频率分布。通过它可以查看某一列或某一行以了解某个变量在另一变量的作用下的分布情况。

通过交叉表查看 Churn 离网率和类别变量 State 州的关系。

1	pd.crosstab(df['State'], df['Churn']).T

State	AK	AL	AR	AZ	CA	CO	CT	DC	DE	FL	...	SD	TN	TX	UT	VA	VT	WA	WI	WV	WY
Churn
False	49	72	44	60	25	57	62	49	52	55	...	52	48	54	62	72	65	52	71	96	68
True	3	8	11	4	9	9	12	5	9	8	...	8	5	18	10	5	8	14	7	10	9

2 rows × 51 columns

上表显示，State 州有 51 个不同的值，并且每个州只有 3 到 17 个客户抛弃了运营商。通过 groupby() 方法计算每个州的离网率，由高到低排列。

1	df.groupby(['State'])['Churn'].agg([np.mean]).sort_values(by='mean', ascending=False).T

State	NJ	CA	TX	MD	SC	MI	MS	NV	WA	ME	...	RI	WI	IL	NE	LA	IA	VA	AZ	AK	HI
mean	0.264706	0.264706	0.25	0.242857	0.233333	0.219178	0.215385	0.212121	0.212121	0.209677	...	0.092308	0.089744	0.086207	0.081967	0.078431	0.068182	0.064935	0.0625	0.057692	0.056604

1 rows × 51 columns

上表显示，新泽西和加利福尼亚的离网率超过了 25%，夏威夷和阿拉斯加的离网率则不到 6%。然而，这些结论是基于极少的样本得出的，可能仅适用于这一特定数据集，不太具有泛用性。

全局数据集可视化

上面我们一直在研究数据集的不同方面（facet），通过猜测有趣的特征并一次选择少量特征进行可视化。如果我们想一次性显示所有特征并仍然能够解释生成的可视化，该怎么办？

降维

大多数现实世界的数据集有很多特征，每一个特征都可以被看成数据空间的一个维度。因此，我们经常需要处理高维数据集，然而可视化整个高维数据集相当难。为了从整体上查看一个数据集，需要在不损失很多数据信息的前提下，降低用于可视化的维度。这一任务被称为降维（dimensionality reduction）。降维是一个无监督学习（unsupervised learning）问题，因为它需要在不借助任何监督输入（如标签）的前提下，从数据自身得到新的低维特征。

主成分分析（Principal Component Analysis, PCA）是一个著名的降维方法，我们会在之后的课程中讨论它。但主成分分析的局限性在于，它是线性（linear）算法，这意味着对数据有某些特定的限制。

与线性方法相对的，有许多非线性方法，统称流形学习（Manifold Learning）。著名的流形学习方法之一是 t-SNE。

实验总结

本章节首先介绍了 Pandas、Matplotlib 和 seaborn 库的一些常用可视化方法，并对客户离网数据集进行了可视化分析和 t-SNE 降维。可视化是一个相对快捷的从数据中挖掘信息的手段，因此，学习这一技术并将其纳入你的日常机器学习工具箱，是很有必要的。

Edlison is talking here.