翻譯|使用教程|編輯:況魚杰|2020-06-10 11:54:34.703|閱讀 824 次
概述:過度擬合模型是執(zhí)行回歸分析時需要注意的一個實際問題。 過擬合模型會導(dǎo)致誤導(dǎo)回歸系數(shù),p值和R平方統(tǒng)計量。 沒有人希望如此。本文將會研究一下什么是過擬合模型,以及如何避免掉入過擬合陷阱。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
Minitab Statistical Software是一款無與倫比的可視化統(tǒng)計分析軟件,它會審視當(dāng)前及過往的數(shù)據(jù),以找出趨勢并預(yù)測規(guī)律、發(fā)現(xiàn)變量之間隱藏的關(guān)系、可視化數(shù)據(jù)交互作用并識別重要因素,從而解答最棘手的問題、應(yīng)對最嚴(yán)峻的難題。
過度擬合模型是執(zhí)行回歸分析時需要注意的一個實際問題。 過擬合模型會導(dǎo)致誤導(dǎo)回歸系數(shù),p值和R平方統(tǒng)計量。 沒有人希望如此。本文將會研究一下什么是過擬合模型,以及如何避免掉入過擬合陷阱。
簡而言之,對于您正在分析的數(shù)據(jù)而言,過擬合模型過于復(fù)雜。 過度擬合回歸模型可以反映您所收集的特定樣本的噪聲,異常和隨機特征,而不是完全反映整個種群。 發(fā)生這種情況時,過擬合模型不太可能擬合另一個來自相同總體的隨機樣本,而后者可能會有其自身的怪癖。
一個好的模型不僅應(yīng)該適合您擁有的樣本,還應(yīng)該適合您從相同總體中收集的任何新樣本。有關(guān)過度擬合回歸模型的危險的示例,請查看以下擬合線圖:
即使此模型看起來可以解釋響應(yīng)中的很多變化,但對于此樣本數(shù)據(jù)而言,它太復(fù)雜了。在總體中,如此處詳細(xì)說明的那樣,在預(yù)測變量和此響應(yīng)之間沒有真正的關(guān)系。
推論統(tǒng)計基礎(chǔ)
為了更深入地了解過度擬合的問題,讓我們回顧一下推理統(tǒng)計的基本概念,在該概念中,可以嘗試從隨機樣本中得出有關(guān)總體的結(jié)論。樣本數(shù)據(jù)用于提供總體參數(shù)和關(guān)系的無偏估計,還用于檢驗關(guān)于總體的假設(shè)。
在推論統(tǒng)計中,樣本的大小會影響您可以收集的有關(guān)總體的信息量。如果您想了解更多信息,則需要更大的樣本量。試圖從一個小樣本中獲取太多信息并不能很好地工作。
例如,樣本量為20,您可能會很好地估計出單個總體平均值。但是用總樣本量為20來估計兩個總體均值是一個風(fēng)險較高的主張。如果您想用相同的樣本估算三個或更多的總體均值,則得出的任何結(jié)論都是非常粗略的。
換句話說,嘗試從樣本中學(xué)習(xí)太多會導(dǎo)致結(jié)果不如我們所希望的可靠。在此示例中,隨著每個參數(shù)的觀察值從20減少到10到6.7甚至更多,參數(shù)估計將變得更加不可靠。一個新樣本可能會產(chǎn)生不同的參數(shù)估計值。
樣本量如何與過擬合模型相關(guān)
同樣,過度擬合回歸模型的原因是試圖從太小的樣本中估計太多的參數(shù)。在回歸中,使用單個樣本來估計模型中所有項的系數(shù)。這包括每個預(yù)測變量,交互作用和多項式項。結(jié)果,可以安全容納的術(shù)語數(shù)取決于樣本的大小。
較大的樣本允許使用更復(fù)雜的模型,因此,如果您要研究的問題或過程非常復(fù)雜,則需要足夠大的樣本量來支持這種復(fù)雜性。由于樣本量不足,您的模型將不可靠。
因此,您的樣本需要針對每個術(shù)語進行足夠的觀察。在多元線性回歸中,每項10-15個觀察值是一個很好的經(jīng)驗法則。因此,具有兩個預(yù)測變量且具有交互作用的模型將需要30到45個觀察值,如果您具有較高的多重共線性或較小的效應(yīng)量,則可能需要更多觀察值。
避免過擬合模型
您可以通過交叉驗證來檢測過度擬合-確定模型對新觀測值的適應(yīng)程度。對數(shù)據(jù)進行分區(qū)是一種評估模型如何擬合未用于估計模型的觀測值的方法。
對于線性模型,Minitab會計算預(yù)測的R平方,這是一種不需要單獨樣本的交叉驗證方法。為了計算預(yù)測的R平方,Minitab會系統(tǒng)地從數(shù)據(jù)集中刪除每個觀察值,估計回歸方程,并確定模型對移除的觀察值的預(yù)測程度。
在預(yù)測刪除的觀察結(jié)果時表現(xiàn)不佳的模型可能符合樣本中的特定數(shù)據(jù)點,并且不能推廣到全部人群。
過度擬合問題的最佳解決方案是避免。確定重要變量并考慮可能要指定的模型,然后提前計劃以收集足夠大的樣本來處理您的響應(yīng)變量可能需要的所有預(yù)測變量,交互作用和多項式項。
對Minitab的更多應(yīng)用感興趣嗎?聯(lián)系在線客服了解更多產(chǎn)品詳情。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn
文章轉(zhuǎn)載自:minitab