|
通过在下面输入您的电子邮件来下载这篇文章
在此输入您的电子邮件
不用担心,我们不会发送垃圾邮件。
散点图在信息图表中可能不会经常使用,但它们绝对有一席之地。
它们可以显示大量数据,并可以轻松查看变量和聚类效果之间的相关性。
作为一种快速概述和分析工具,散点图 希腊电话号码数据 非常宝贵,并且适用于几乎任何连续尺度的数据。
不幸的是,散点图并不总是适合演示。有几个问题经常发生,在使用散点图进行分析或演示时最好了解每个问题。
散点图的工作原理是在垂直轴上放置一个维度,在水平轴上放置不同的维度。
每条数据都由图表上的一个点表示。散点图的变化为类别引入了不同形状或颜色的点,为定量数据引入了不同大小的点。
有时,人们使用饼图作为散点图中的点来显示更多具有部分与整体关系的数据。
散点图问题的主要原因是值的离散化。
当小数位被四舍五入、测量结果不够准确或数据字段是分类的时,就会发生这种情况。
下面的散点图使用有关汽车的标准化数据集。
该散点图的问题均源自 x 轴;气缸数。由于数值太少,圆柱实际上是用数字表示的分类尺度。
这会导致过度绘制问题,因此有数百个值彼此堆叠在一起。
这使得很难查看数据集中值的全部数量,并且由于 x 轴上可能的值很少,因此更难找到相关性和聚类。
如果您对散点图一心一意,那么您无能为力来纠正这种严重的离散化情况,但在稍微好一点的情况下,有一些可能的修复方法。
半透明度是处理过度绘制的强大工具。
另一种可能的缓解技术是删除标记的填充。两种方法都有优点和缺点,两者的结合也可能有用。
不幸的是,这些方法并不是包治百病的解决方案。仍然有可能有如此多的点或完美对齐的点堆积超出不透明度范围。
理想情况下,避免精度低或唯一值很少的数据维度是防止这些问题的最佳方法。
有时数据不属于散点图,您应该可视化另一个维度。
在下面的例子中,显示了两个连续的尺度,并且该组的整体形状表明两个维度之间存在负相关性。
如果您确实需要显示分类数据,请考虑将其直观地编码为颜色。
下图确实具有较低唯一值计数的维度(来自Fisher's Iris Data 的数据),但它很好地展示了颜色如何帮助识别聚类。
散点图肯定有局限性,其中大部分来自数据的特征。
然而,如果使用得当,它们非常适合概览、查找异常值以及显示某些维度之间的模式。对于数据可视化工具来说,负责任地使用散点图可能是一个非常有价值的工具。
Drew Skau是UNCC计算机科学可视化博士生,拥有建筑学本科学位,但性格散乱。
|
|