- 相關推薦
分類數據的統計分析技巧
你知道分類數據的統計分析技巧有哪些嗎?你知道什么是分類數據的統計分析嗎?下面是yjbys小編為大家帶來的關于分類數據的統計分析技巧的知識,歡迎閱讀。
分類數據的統計分析技巧:
1. 樣本數據與總體比較
1)二分類資料:
(1)小樣本數據:用二項分布進行確切概率法檢驗;
(2)大樣本數據:用U檢驗;
2)多分類數據:用Pearson檢驗(又稱擬合優度檢驗)。
2. 四格表(2×2表)數據
1)完全隨機設計的四格表數據的分析
(1)當樣本量n>40,并且4個格子理論數均大于5時,則用Pearson 檢驗;
(2)當樣本量n>40,并且4個格子理論數均大于1且至少存在一個格子的理論數<5時,則用校正檢驗或用Fisher’s精確概率法檢驗;
(3)當樣本量n40或存在任一格子理論數<1,則用精確概率法檢驗;
2)配對設計的四格表數據的分析
(1)b+c≥40,則用McNemar配對檢驗;
(2)b+c<40,則用二項分布確切概率法檢驗;
3. 2×C表或R×2表數據的統計分析
1)列變量為效應指標,并且為有序多分類變量,行變量為分組變量,則可以采用行平均得分差(Row Mean Scores Differ)的CMH 或成組的Wilcoxon秩和檢驗;
2)列變量為效應指標并且為二分類,行變量為有序多分類變量,則可采用普通的Pearson 檢驗比較各組之間有無差別,如果總的來說有差別,還可進一步作兩兩比較,以說明是否任意兩組之間的差別都有統計學意義。
3)行變量和列變量均為無序分類變量:
(1)當樣本量n>40,并且理論數小于5的格子數少于行列表中格子總數的25%,則用Pearson 檢驗;
(2)當樣本量n40,或理論數小于5的格子數多于行列表中格子總數的25%,則用Fisher’s確切概率法檢驗;
4. R×C表數據的統計分析
1)完全隨機設計的R×C表數據的統計分析
(1)列變量為效應指標,并且為有序多分類變量,行變量為分組變量,則CMH 或Kruskal Wallis的秩和檢驗;
(2)列變量為效應指標,并且為無序多分類變量,行變量為有序多分類變量,則采用普通的Pearson 檢驗比較各組之間有無差別,如果總的來說有差別,還可進一步作兩兩比較,以說明是否任意兩組之間的差別都有統計學意義;
(3)列變量和行變量均為有序多分類變量,可以作Spearman相關分析或者非零相關(none zero correlation)的CMH ;
(4)列變量和行變量均為無序多分類變量:
i. 當樣本量n>40并且理論數小于5的格子數少于行列表中格子總數的25%,則用Pearson 檢驗進行分析;
ii. 當樣本量n40或理論數小于5的格子數多于行列表中格子總數的25%,則用Fisher’s 確切概率法檢驗;
2)配對設計的C×C表數據:
(1)配對比較:用McNemar配對檢驗;
(2)一致性檢驗(Agreement):用Kappa檢驗;
Poisson分布數據
1. 單樣本數據與總體比較:
1)當觀察值較小時:可以用確切概率法進行檢驗。
2) 當觀察值較大時:可以用正態近似的U檢驗。
2. 兩個樣本數據的比較:可以用正態近似的U檢驗。
兩個變量之間的關聯性分析
1. 兩個變量均為連續型變量
1)當兩變量為小樣本并且兩個變量服從雙正態分布時,可以用Pearson相關系數來衡量兩個變量之間的關聯性;
2)當兩變量為大樣本或兩個變量不服從雙正態分布,則用Spearman相關系數來衡量兩個變量之間的關聯性;
2. 如果兩個變量均為有序分類變量,可以用Spearman相關系數來衡量兩個變量之間的關聯性;
3. 如果一個變量為有序分類變量,另一個變量為連續型變量,可以用Spearman相關系數來衡量兩個變量之間的關聯性。
如何進行數據分析統計:
描述統計是通過圖表或數學方法,對數據資料進行整理、分析,并對數據的分布狀態、數字特征和隨機變量之間關系進行估計和描述的方法。
描述統計分為集中趨勢分析、離中趨勢分析、相關分析三大部分。
集中趨勢分析
集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。
離中趨勢分析
離中趨勢分析主要靠全距、四分差、平均差、方差(協方差:用來度量兩個隨機變量關系的統計量)、標準差等統計指標來研究數據的離中趨勢。例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。
相關分析
相關分析探討數據之間是否具有統計學上的關聯性。
假設檢驗是用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質差別造成的統計推斷方法。
假設檢驗可分為正態分布檢驗、正態總體均值分布檢驗、非參數檢驗三類。
正態分布檢驗
正態分布檢驗包括三類:JB檢驗、KS檢驗、Lilliefors檢驗,用于檢驗樣本是否來自于一個正態分布總體。
正態總體均值分布檢驗
正態總體均值分布檢驗考察系統誤差對測試結果的影響,從統計意義上來說,各樣本均值之差應在隨機誤差允許的范圍之內。反之,如果不同樣本的均值之差超過了允許的范圍,這就說明除了隨機誤差之外,各均值之間還存在系統誤差,使得各均值之間出現了顯著性差異。
分為兩種情況:
T檢驗:主要用于樣本含量較小,總體標準差未知的正態分布資料。它用T分布理論來推斷差異發生的概率,從而判定兩個平均數的差異是否顯著。
U檢驗:一般用于大樣本的平均值差異性檢驗,基于樣本來自正態總體的假設。它是用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數的差異是否顯著。國外英文統計學大多采用Z檢驗。
非參數檢驗
非參數檢驗不考慮總體分布是否已知,僅應用樣本觀察值中一些非常直觀的信息。適用情況包括:待分析數據不滿足參數檢驗所要求的假定,因而無法應用參數檢驗;僅由一些等級構成的數據;所提的問題中并不包含參數;需要迅速得出結果時。它的主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗、符號檢驗等。
相關分析是研究現象之間相互關系的主要方式之一,它可以將現象之間的關系大小與方向測定出來。相關關系的類型按照不同維度可分為:
按相關程度劃分:完全相關、不相關、不完全相關。
按依存關系的表現形式劃分:線性相關、非線性相關。
按相關方向劃分:正相關、負相關。
按研究量劃分:單相關、復相關。
相關關系的測定方法包括:散點圖、相關系數等。
回歸分析是確定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。它按照變量的多少和變量之間的關系類型,可分為多種回歸:
一元線性回歸分析
分析一個因變量與一個自變量之間的線性關系,常用統計指標包括: 平均數、增減量、平均增減量。
多元線性回歸分析
分析多個自變量與一個因變量之間的線性關系,在實際統計分析中,一般利用軟件對多元回歸模型進行估計。
非線性回歸分析
自變量與因變量之間因果關系的函數表達式是非線性的,非線性回歸模型有很多包括對數曲線方程、反函數曲線方程、二次曲線方程、三次曲線方程、復合曲線方程、冪函數曲線方程 、S形曲線方程等均為非線性回歸方程。
其它回歸分析模型還有很多,之前有寫過一篇回歸分析的內容,想了解的小伙伴可以去看,這里就不贅述啦!
方差分析又稱“變異數分析”或“F檢驗”,用于兩個及兩個以上樣本均數差別的顯著性檢驗。使用條件包括:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
根據所分析的試驗因素個數多少,可分為:
單因素方差分析
用來研究一個控制變量的不同水平是否對觀測變量產生了顯著影響。這里,由于僅研究單個因素。
雙因素方差分析
用來分析兩個因素的不同水平對結果是否有顯著影響,以及兩因素之間是否存在交互效應。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,將數據分類到不同的類或者簇。同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
聚類分析的計算方法主要有:
分裂法
首先創建k個劃分,k為要創建的劃分個數。然后利用一個循環定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:k-means、k-medoids、CLARA、CLARANS、FCM等。
層次法
創建一個層次以分解給定的數據集,可以分為自上而下(分解)和自下而上(合并)兩種操作方式。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。
基于密度的方法
根據密度完成對象的聚類。方法包括:DBSCAN、OPTICS等。
基于網格的方法
先將對象空間劃分為有限個單元以構成網格結構,然后利用網格結構完成聚類。方法包括:STING、CLIQUE等。
基于模型的方法
假設每個聚類的模型并發現適合相應模型的數據。方法包括:COBWEB、CLASSIT等。
時間序列是同一現象在不同時間上的觀察數據按時間先后順序排列起來所得到的數列,也稱為動態數列。時間序列的兩個基本要素:現象所屬的時間和反映現象在不同時間上的指標數值。
時間序列按排列指標的表現形式不同,可分為:
絕對數時間序列
指一系列同類的總量指標數據按時間先后順序排列而形成的序列,反映現象在各個時期上達到的絕對水平。又分為:時點序列和時期序列。
相對數時間序列
指相對指標數值按時間先后順序排列而形成的時間序列,主要反映的是客觀現象數量對比關系的發展過程。
平均數時間序列
指一系列同類的平均指標數值依時間順序排列形成的數列,主要反映的是客觀現象一般水平的發展變化過程。又可分為:靜態平均數時間序列和動態平均數時間序列。
時間序列的分析模型,按影響因素可劃分為:
長期趨勢的測定和分析方法:時距擴大法、移動平均法、最小二乘法。
季節變動的測定和分析方法:同期平均法、移動平均趨勢剔除法。
循環變動的測定和分析方法:直接法和剩余法。
當然了,統計學遠遠不止這7種數據分析方法,還有很多其他方法值得我們深挖學習,如通徑分析、因子分析、主成分分析等。如果以后要做數據分析,一定要學習更多統計學的基礎知識。
【分類數據的統計分析技巧】相關文章:
演講技巧分類03-18
excel表格數據的分類匯總教程03-29
攝影的分類和技巧03-17
瑜伽呼吸分類技巧03-07
嗓音分類與歌唱技巧03-17
管理模具設計數據的技巧02-28
微軟認證考試技巧:數據庫03-21
Oracle 數據庫查詢小技巧03-21
2016最數據庫設計技巧03-29
美甲筆的分類及使用技巧03-12