访问量: 9 次浏览
可视化数据可以帮助收集描述性统计所不能提供的洞察力。
安斯康伯的四重奏 向我们展示了那些统计数字是如何被误导的,因此它成为可视化的数据分析。
直方图是一种将连续变量的数据分布可视化的方法。直方图与柱状图类似,但柱状图是将分类数据可视化,而直方图是将连续数据可视化。
在这篇文章中,我们将看到如何在R编程语言中创建直方图,以及如何在其中添加平均线和中位线。
在学习创建直方图的代码之前,让我们先了解一下如何创建直方图。
创建直方图的过程很简单,你首先要决定一个组距,现在我们把组距定为5。
下一步,我们将找出位于各组内(0-5, 5-10,10-15,…)的数字的频率。
因此,如果我们的样本数据是[2, 3, 7, 8, 10, 13, 14, 15, 17, 18, 20, 22, 25, 26, 27, 28],而组距是5,那么我们将得到以下直方图:-。

让我们来理解上面的图。在我们的样本数据中,我们有2个0-5的数值,因此0-5的条形图在Y轴上的高度是2个单位。
同样地,我们在5-10的范围内有3个值,因此柱状图的高度是3。同样的数据,组距为3,会得到以下直方图:-。

因此,为了从数据中获得有价值的洞察力,设置正确的组距是很重要的。
有很多公式可以找到正确的组距,如Sturges规则、Rice规则、Scott规则,等等。
R语言中的直方图可以通过hist()函数来创建。你所做的只是把数据传给函数,它就会为你绘图。
让我们继续创建一个直方图。
l <- c(2, 3, 7, 8, 10, 13, 14, 15,
18, 18, 20, 26, 25, 26, 27, 28)
hist(l)
输出。

现在我们已经创建了直方图,让我们为它添加平均线和中位线。为了找到平均线和中位线。
但在添加它们之前,让我们先找到它们,在R中找到数据的平均数和中位数,我们可以使用mean()和median()函数。
mean <- mean(l) # Mean: 16.25
med <- median(l) # Meadian: 16.5
现在我们有了平均数和中位数,让我们用abline()函数将平均数添加到图中,并将其颜色设置为蓝色。
abline(v = mean, col = 'blue')
示例1:
在R中为直方图添加平均值
l <- c(2, 3, 7, 8, 10, 13, 14, 15,
18, 18, 20, 26, 25, 26, 27, 28)
# Mean of l
mean <- mean(l)
# Plotting histogram and Adding
# Mean line to Histogram
hist(l)
abline(v = mean, col = 'blue')
输出。

示例2:
在R中为直方图添加中位数
让我们使用abline()函数将中位数添加到图中,并将其颜色设置为红色。
abline(v = med, col = 'red')
l <- c(2, 3, 7, 8, 10, 13, 14, 15,
18, 18, 20, 26, 25, 26, 27, 28)
# Median of l
med <- median(l)
# Plotting histogram and Adding
# Median line to Histogram
hist(l)
abline(v = med, col = 'red')
