您當前的位置:檢測資訊 > 生產(chǎn)品管
嘉峪檢測網(wǎng) 2019-10-10 14:21
如何進行抽樣
抽樣分類
1)概率抽樣:以數(shù)據(jù)概率論為基礎(chǔ),按照隨機的原則進行抽樣;
2)非概率抽樣:根據(jù)人類的主觀經(jīng)驗和狀態(tài)進行判斷;
概率抽樣方法
1)簡單隨機抽樣:按等概率原則直接從總中抽取N個樣本
優(yōu)點:易于操作;
缺點:不能保證樣本能完美代表總體;
適用:個體分布均勻的場景
2)等距抽樣:先將總體中的每個個體按順序編號,然后計算出抽樣間隔,再按固定抽取個體
優(yōu)點:易于操作;
缺點:再明顯的分布規(guī)律時容易產(chǎn)生偏差;
適用:個體分布均勻的場景,呈現(xiàn)明顯的均勻分布規(guī)律
3)分層抽樣:先將所有個體樣本按照某種特征劃分為幾個類別,然后從每個類別中使用隨機抽樣或等距抽樣的方法選擇個體組成樣本
優(yōu)點:降低抽樣誤差,針對不同類別的數(shù)據(jù)樣本進行單獨研究;
缺點:無缺點;
適用:帶有分類邏輯的屬性,標簽等特征的數(shù)據(jù)
4)整群抽樣:先將所有樣本分為幾個小群體集,然后隨機抽樣幾個小群體集代表總體。
優(yōu)點:易于操作;
缺點:分布受限于小群體集的劃分,抽樣誤差較大;
適用:小群體集的特征差異比較小,并且對劃分小群體集有更高的要求
抽樣需要注意問題
1)反應(yīng)抽樣背景
a.數(shù)據(jù)時效性;
b.業(yè)務(wù)增長性;
c.數(shù)據(jù)來源多樣性;
d.業(yè)務(wù)數(shù)據(jù)可行性
2)滿足數(shù)據(jù)分析和建模需求
a.抽樣樣本量;
A.以時間為維度分布,至少包含一個能滿足預(yù)測的完整業(yè)務(wù)周期;
B.做預(yù)測(包含分類和回歸)分析建模的,需要考慮特征數(shù)量和特征值域(非數(shù)值)的分布,通常數(shù)據(jù)記錄數(shù)同時是特征數(shù)量和
特征值域的100倍以上;
C.做關(guān)聯(lián)規(guī)則分析模型,根據(jù)關(guān)聯(lián)前后項的數(shù)量,每個主體需要至少1000條數(shù)據(jù)。
D.異常檢測類分析建模,無論是監(jiān)督還是非監(jiān)督建模,數(shù)據(jù)記錄越多越好
b.抽樣樣本在不同類別中的分布問題

來源:實驗室ISO17025