轉(zhuǎn)帖|使用教程|編輯:我只采一朵|2017-07-13 11:24:03.000|閱讀 167 次
概述:你發(fā)現(xiàn),在你的測(cè)試集上你只有80%的正確率,這遠(yuǎn)遠(yuǎn)地低于你的預(yù)期。現(xiàn)在怎么辦,你怎么來(lái)改進(jìn)你的模型?
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
作者:Sourabh Bajaj
假如,你手頭上正有一個(gè)機(jī)器學(xué)習(xí)的項(xiàng)目。你通過(guò)各種渠道手機(jī)數(shù)據(jù),建立你自己的模型,并且得到了一些初期的結(jié)果。你發(fā)現(xiàn),在你的測(cè)試集上你只有80%的正確率,這遠(yuǎn)遠(yuǎn)地低于你的預(yù)期。現(xiàn)在怎么辦,你怎么來(lái)改進(jìn)你的模型?
你需要更多的數(shù)據(jù)嗎?或者建立個(gè)更復(fù)雜的模型?還是說(shuō)調(diào)整正則參數(shù)?加減特征?迭代更多次?不然全來(lái)一遍吧?
最近我的一個(gè)朋友也這么問(wèn)我,他覺(jué)得改進(jìn)模型就是全憑運(yùn)氣。這促使我決定寫(xiě)這篇文章,來(lái)告知應(yīng)該怎么做一個(gè)有信息量,有意義的舉措。
為了構(gòu)建一個(gè)準(zhǔn)確的模型,我們首先要了解模型帶來(lái)的各種誤差。
偏差:偏差誤差是來(lái)源于模型的期望(平均)預(yù)測(cè)數(shù)值與真實(shí)數(shù)值之間的差值。
方差:對(duì)于一個(gè)給定的數(shù)值,模型預(yù)測(cè)結(jié)果的變異(波動(dòng))程度。
我們想要預(yù)測(cè)Y,我們的輸入是X。我們假設(shè)他們兩個(gè)直接有關(guān)系,比如,其中誤差項(xiàng)服從正態(tài)分布。
我們可能通過(guò)線性回歸或者其他建模方法得到一個(gè)估計(jì),然后在點(diǎn)處的期望誤差的平方是:
這個(gè)誤差能夠被拆分成偏差和方差兩個(gè)組成部分:
必不可少的誤差來(lái)源于誤差項(xiàng),任何模型都不能夠徹底地解決。只有給定問(wèn)題本身的真實(shí)模型和無(wú)窮大的數(shù)據(jù)來(lái)修正它,我們能夠讓偏差和方差項(xiàng)都變成零。然而,在一個(gè)沒(méi)有完美的模型和無(wú)窮的數(shù)據(jù)的世界里,我們必須要在減小偏差和方差中權(quán)衡。
現(xiàn)在我們知道權(quán)衡偏差和誤差這件事了,但是如何改進(jìn)我們的模型仍然有待考究。我們的模型面對(duì) 嚴(yán)重偏離 和 高度變異 的時(shí)候應(yīng)該怎么處理?我們需要繪制模型的學(xué)習(xí)曲線來(lái)解答這個(gè)問(wèn)題。
我們已經(jīng)明白,問(wèn)題往往出在偏差或者方差上。這時(shí)候,我們要根據(jù)不同的情況,做出不同的抉擇。
大多數(shù)的機(jī)器學(xué)習(xí)系統(tǒng)都是由一個(gè)模型鏈組成的。通常情況下都會(huì)有一種困境,你已經(jīng)有了一個(gè)機(jī)器學(xué)習(xí)的管道,但是接下來(lái)一步應(yīng)該做什么呢?上限分析在這里很有幫助。
上限分析每一次在管道中的某一部分中插入一個(gè)完美的版本,并且由此來(lái)測(cè)度我們所觀察到的完整的管道能夠有多大的提升。這種方法能夠幫助我們明白在整個(gè)模型鏈中,哪一步能夠帶來(lái)最可觀的優(yōu)化。
比如說(shuō)上述的文字識(shí)別的管道(模型鏈),你發(fā)現(xiàn)一個(gè)完美的字符分割模型能夠給整個(gè)識(shí)別系統(tǒng)提升1%,但是一個(gè)完美的字符識(shí)別模型能夠提升7%。所以相比于改進(jìn)字符分割模型,我們應(yīng)該更關(guān)注字符識(shí)別模型的改進(jìn)。
本文轉(zhuǎn)載自:36大數(shù)據(jù)
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn