亚洲中文字幕a∨,在线国产免费视频,成人视频高清免费

如何改進(jìn)手上的機(jī)器學(xué)習(xí)模型

轉(zhuǎn)帖|使用教程|編輯：我只采一朵|2017-07-13 11:24:03.000|閱讀 167 次

概述：你發(fā)現(xiàn)，在你的測(cè)試集上你只有80%的正確率，這遠(yuǎn)遠(yuǎn)地低于你的預(yù)期。現(xiàn)在怎么辦，你怎么來(lái)改進(jìn)你的模型？

# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>

大數(shù)據(jù)

作者：Sourabh Bajaj

假如，你手頭上正有一個(gè)機(jī)器學(xué)習(xí)的項(xiàng)目。你通過(guò)各種渠道手機(jī)數(shù)據(jù)，建立你自己的模型，并且得到了一些初期的結(jié)果。你發(fā)現(xiàn)，在你的測(cè)試集上你只有80%的正確率，這遠(yuǎn)遠(yuǎn)地低于你的預(yù)期。現(xiàn)在怎么辦，你怎么來(lái)改進(jìn)你的模型？

你需要更多的數(shù)據(jù)嗎？或者建立個(gè)更復(fù)雜的模型？還是說(shuō)調(diào)整正則參數(shù)？加減特征？迭代更多次？不然全來(lái)一遍吧？

最近我的一個(gè)朋友也這么問(wèn)我，他覺(jué)得改進(jìn)模型就是全憑運(yùn)氣。這促使我決定寫(xiě)這篇文章，來(lái)告知應(yīng)該怎么做一個(gè)有信息量，有意義的舉措。

1. 偏差和方差

為了構(gòu)建一個(gè)準(zhǔn)確的模型，我們首先要了解模型帶來(lái)的各種誤差。

偏差：偏差誤差是來(lái)源于模型的期望（平均）預(yù)測(cè)數(shù)值與真實(shí)數(shù)值之間的差值。

方差：對(duì)于一個(gè)給定的數(shù)值，模型預(yù)測(cè)結(jié)果的變異（波動(dòng)）程度。

大數(shù)據(jù)

1.1 數(shù)學(xué)定義

我們想要預(yù)測(cè)Y，我們的輸入是X。我們假設(shè)他們兩個(gè)直接有關(guān)系，比如，其中誤差項(xiàng)服從正態(tài)分布。

我們可能通過(guò)線性回歸或者其他建模方法得到一個(gè)估計(jì)，然后在點(diǎn)處的期望誤差的平方是：

這個(gè)誤差能夠被拆分成偏差和方差兩個(gè)組成部分：

大數(shù)據(jù)

必不可少的誤差來(lái)源于誤差項(xiàng)，任何模型都不能夠徹底地解決。只有給定問(wèn)題本身的真實(shí)模型和無(wú)窮大的數(shù)據(jù)來(lái)修正它，我們能夠讓偏差和方差項(xiàng)都變成零。然而，在一個(gè)沒(méi)有完美的模型和無(wú)窮的數(shù)據(jù)的世界里，我們必須要在減小偏差和方差中權(quán)衡。

2. 什么是學(xué)習(xí)曲線

現(xiàn)在我們知道權(quán)衡偏差和誤差這件事了，但是如何改進(jìn)我們的模型仍然有待考究。我們的模型面對(duì) 嚴(yán)重偏離 和 高度變異 的時(shí)候應(yīng)該怎么處理？我們需要繪制模型的學(xué)習(xí)曲線來(lái)解答這個(gè)問(wèn)題。

2.1 嚴(yán)重偏離

小訓(xùn)練樣本：很小，并且很大。
大訓(xùn)練樣本：和都很大，并且兩者近似相等。

2.2 高度變異

小訓(xùn)練樣本：很小，并且很大。
大訓(xùn)練樣本：隨著訓(xùn)練集增加而變大，并且繼續(xù)減小，但是不會(huì)穩(wěn)定。，而且他們之間的差距很顯著。

大數(shù)據(jù)

3. 下一步做什么？

我們已經(jīng)明白，問(wèn)題往往出在偏差或者方差上。這時(shí)候，我們要根據(jù)不同的情況，做出不同的抉擇。

3.1 嚴(yán)重偏離

選擇更復(fù)雜的特征，高階項(xiàng)或者增加節(jié)點(diǎn)。
減小正則參數(shù)。

3.2 高度變異

收集更多的訓(xùn)練數(shù)據(jù)來(lái)幫助模型得到更好的泛化。
減小特征集合的大小。
增大正則參數(shù)。

大數(shù)據(jù)

4. 機(jī)器學(xué)習(xí)流程

大多數(shù)的機(jī)器學(xué)習(xí)系統(tǒng)都是由一個(gè)模型鏈組成的。通常情況下都會(huì)有一種困境，你已經(jīng)有了一個(gè)機(jī)器學(xué)習(xí)的管道，但是接下來(lái)一步應(yīng)該做什么呢？上限分析在這里很有幫助。

上限分析每一次在管道中的某一部分中插入一個(gè)完美的版本，并且由此來(lái)測(cè)度我們所觀察到的完整的管道能夠有多大的提升。這種方法能夠幫助我們明白在整個(gè)模型鏈中，哪一步能夠帶來(lái)最可觀的優(yōu)化。

大數(shù)據(jù)

比如說(shuō)上述的文字識(shí)別的管道（模型鏈），你發(fā)現(xiàn)一個(gè)完美的字符分割模型能夠給整個(gè)識(shí)別系統(tǒng)提升1%，但是一個(gè)完美的字符識(shí)別模型能夠提升7%。所以相比于改進(jìn)字符分割模型，我們應(yīng)該更關(guān)注字符識(shí)別模型的改進(jìn)。

本文轉(zhuǎn)載自：36大數(shù)據(jù)