在我們閱讀文獻時,我們經常會看到類似這樣的句子:
當數據服從正態分布時,我們要使用這種統計***進行檢驗,當數據不服從正態分布時,我們要使用那種***進行檢驗。你一定會有疑問,這是為什么呢?判斷數據是否服從正態分布在這一過程中到底起到什么作用呢?
其實很多時候,在我們獲得數據之后都需要從單一樣本中獲得樣本的信息,并通過統計分析的***來估計總體的參數信息。在進行統計分析之前,我們需要識別樣本的分布特征。
如果你不了解樣本的分布特征就會面臨選擇錯誤的統計檢驗的風險。許多統計***在使用時都會假定數據是服從正態分布的,比如單/雙樣本-T檢驗。那么,我們拿到一些數據之前,就要驗證一下這些數據是否是服從正態分布的。下面,小編就來給大家簡單講一講如何使用SPSS對數據進行正態性檢驗。
先給大家看文獻中的一個例子:
從某單位職工2018年體檢中獲得24名職工的血清總膽固醇(mmol/L)的測量結果如下:
通過計算得到24名職工的血清總膽固醇的均數為=3.88,標準差為S=0.73。通過編制頻數表,畫出直方圖,如下:
從圖中可以看出,在均數附近的頻數較大(人數較多),并以此為中心左右基本對稱,在處理資料時,我們就把它當做數學上的正態分布(圖中曲線圓滑)。那么如何用SPSS驗證數據是否服從正態分布呢?檢驗數據是否服從正態分布的***有很多,這里先給大家介紹幾種簡單的***。
1.正態曲線圖
點擊“分析”,“描述性統計”中的“頻率”。
將數據選入變量,點擊圖表-直方圖-在直方圖中顯示正態曲線。
獲得以下結果:
2.峰度和偏度
(見上一篇鏈接:SPSS數據分析-描述性統計分析)
偏度反映的是分布形狀是否對稱,偏度>0為右偏,偏度<0為左偏。
峰度反映的是分布形狀是平坦還是尖峰,峰度>0為尖峰,峰度<0為平坦峰。
3.KS檢驗和SW檢驗
點擊“分析”,“描述統計”中的“探索”。
將數據放入因變量列表;點擊圖,勾選含檢驗的正態圖。
獲得以下結果:
由結果看出:KS檢驗和SW檢驗的P值分別為0.200和0.999,均大于0.05,因此不能拒絕原假設,認為數據服從正態分布。
4.P-P圖和Q-Q圖
P-P圖是比較理論上正態分布的累積概率與樣本數據的累積概率的吻合程度,Q-Q圖是比較理論分位數和實際分位數的吻合程度。如果服從正態分布,則數據點應與理論直線基本重合。以Q-Q圖為例(P-P圖操作類似)。
點擊“分析”,“描述統計”中的“Q-Q圖”。
數據選入變量框中,檢驗分布框選擇正態,其他默認即可。
由圖可看出,圖中的點大致都在一條直線上,所以數據滿足正態分布。
檢驗數據是否服從正態分布的***有很多,這里只是介紹了幾種很簡單的檢驗***。在對數據進行統計分析時,首先要了解清楚數據的分布特征才能選擇正確的***,做到萬無一失。#清風計劃#
參考鏈接:
[1]安勝利.統計學系列講座第2講正態分布與參考值范圍估計[J].護理學報,2006(03):93-94.
[2]施月仙,趙岳,侯亞紅,高敏,王麗君,尚少梅.血液透析患者并發高磷血癥的非疾病性因素研究[J].中華護理雜志,2018,53(10):1186-1191.