数据可视化是数据分析的重要组成部分,因为它们能够以图形格式有效地汇总大量数据。有许多可用的图表类型,每种类型都有自己的优势和用例。分析过程中最棘手的部分之一是选择使用这些可视化效果之一的正确方法来表示数据。
在本文中,我们根据需要执行的任务类型来处理选择数据可视化的任务。
数据可视化的常见角色包括:
· 显示随时间变化的图表
· 显示部分到整体的图表
· 查看数据分布方式的图表
· 用于比较组间值的图表
· 观察变量间关系的图表
· 用于查看地理数据的图表
数据可视化选择的图表会直接影响可视化的效果,所以在我们在进行数据分析时,需要选择合适的图表才能将需要分析的数据正确的展示出来,下面就来具体介绍下不同类型的可视化图表。
用于显示随时间变化的图表
可视化数据的最常见应用之一是查看变量值随时间的变化。这些图表通常在水平轴上有时间,从左到右移动,其它变量值在垂直轴上。有多种方法可以对这些值进行编码:
· 条形图按基线中条形的高度对值进行编码。
· 折线图按线段连接的点的垂直位置对值进行编码。
· 当需要绘制每个时间段的值分布时,箱形图非常有用。
· 金融领域有许多专业图表类型,如烛台图或 Kagi 图。
用于显示部分到整体构图的图表
有时,我们不仅需要知道总数,还需要知道构成该总数的组成部分。虽然其他图表(如标准条形图)可用于比较组件的值,但以下图表更能展示部分到整体:
· 饼图用一个圆圈表示整体,按切片划分为多个部分。
· 堆积条形图通过将每个条形划分为多个子条来修改条形图,在每个主条形中显示部分到整体的构图。
· 堆积面积图通过折线图下的阴影将总数划分为子组值来修改折线图。
· 其他更复杂的显示层次结构关系的图表类型,包括玛莉美歌图和树状图。
用于查看数据分布方式的图表
可视化的一个重要用途是显示数据点的值是如何分布的,当试图建立对数据特征属性的理解时:
· 当变量是定性的并且采用多个离散值时,将使用条形图。
· 当变量是定量的,采用数值时,使用直方图。
· 使用密度曲线代替直方图,作为基础分布的平滑估计值。
· 小提琴图通过绘制每个组的密度曲线来比较组之间的数值分布。
· 箱形图是比较组间分布的另一种方法,但使用统计量汇总而不是估计的分布形状。
用于比较组间值的图表
数据可视化的另一个非常常见的应用是比较不同组之间的值。这通常与其他角色结合使用以进行数据可视化,例如显示随时间的变化,或查看数据的分布方式。
· 条形图通过为每个组分配一个条形来比较组之间的值。
· 点图可以类似地使用,但值由点位置而不是条形长度指示。
· 折线图可用于通过绘制每组一条线来比较组之间的值。
· 分组条形图允许通过在每个位置(而不仅仅是一个位置)绘制多个条形来比较两个不同分组变量的数据。
· 小提琴图和箱形图用于比较组之间的数据分布。
· 漏斗图是一种专业图表,用于显示数量如何在流程中移动,例如跟踪从看到广告到最终进行购买的访问者数量。
· 项目符号图是另一个专业图表,用于将真实值与一个或多个基准进行比较。
· 平行坐标图(及其特殊情况使用斜率图)和哑铃图也可用于组之间的值比较。
用于观察变量之间关系的图表
数据探索中显示的另一项任务是了解数据特征之间的关系。下面的图表类型可用于绘制两个或多个变量,以观察它们之间的趋势和模式。
· 散点图是显示两个变量之间关系的标准方法。
· 散点图也可以通过向每个点添加颜色、形状或大小作为指标来扩展到其他变量,就像在气泡图中一样。
· 当第三个变量表示时间时,散点图中的点可以与线段连接,从而生成连接的散点图。
· 时态第三变量的另一种替代方法是双轴图,例如绘制具有共享水平轴的折线图和条形图。
· 当要比较的一个或两个变量不是数值时,热图可以显示组之间的关系。
用于查看地理数据的图表
有时,数据包括纬度和经度等地理数据或国家或州等地区。虽然绘制此数据可能只是将现有可视化扩展到地图背景上(例如,在地图上的散点图中绘制点),但还有其他图表类型会考虑映射域。下面重点介绍其中两个:
· 分区统计就像一个热图,在地缘政治区域而不是严格的网格中着色。
· 制图采用不同的方法,使用每个区域的大小对值进行编码。这种方法需要在形状和拓扑中出现一些失真。
结语
为数据选择正确的图表取决于我们要处理的数据信息。以上只是一般准则,突破标准模式可能会收获不一样的效果。不仅要试验不同的图表类型,还要试验变量在每个图表中的编码方式。请记住,通常最好使每个单独的图尽可能简单明了,使用多个图进行比较、显示趋势并演示多个变量之间的关系。
Web组态示例 查看更多的示例