機(jī)器學(xué)習(xí)項(xiàng)目十分復(fù)雜,因?yàn)樗鼈冃枰煌M專(zhuān)業(yè)人員的技能協(xié)作。本文旨在介紹的機(jī)器學(xué)習(xí)的生命周期、參與機(jī)器學(xué)習(xí)的專(zhuān)業(yè)人員角色介紹以及SQL Server如何支持主體的需求任務(wù)。
機(jī)器學(xué)習(xí)生命周期
機(jī)器學(xué)習(xí)是一個(gè)復(fù)雜的過(guò)程,許多方面花費(fèi)的時(shí)間比預(yù)期更復(fù)雜。下面是一些機(jī)器學(xué)習(xí)要求企業(yè)中的數(shù)據(jù)專(zhuān)業(yè)人員支持的方式:
- 機(jī)器學(xué)習(xí)開(kāi)頭的目標(biāo)和業(yè)務(wù)規(guī)則的標(biāo)識(shí)。
- 機(jī)器學(xué)習(xí)專(zhuān)業(yè)人員必須要注意的存儲(chǔ)、提取和審核數(shù)據(jù)。
- 必須標(biāo)識(shí)數(shù)據(jù)源,并從傳感器和業(yè)務(wù)應(yīng)用程序中提取相應(yīng)的數(shù)據(jù)。
- 機(jī)器學(xué)習(xí)工作的質(zhì)量不僅高度依賴(lài)于有價(jià)值的數(shù)據(jù)類(lèi)型,還有提取、存儲(chǔ)和處理數(shù)據(jù)的進(jìn)程類(lèi)型。
- 機(jī)器學(xué)習(xí)項(xiàng)目都是在報(bào)告和分析的幫助下完成,不過(guò)客戶(hù)的參與及反饋的不完整有可能造成影響。
SQL Server在許多企業(yè)數(shù)據(jù)專(zhuān)業(yè)人員和機(jī)器學(xué)習(xí)專(zhuān)家之間搭建橋梁,體現(xiàn)在:
- 數(shù)據(jù)可以是存儲(chǔ)在本地或云中
- SQL Server集成的企業(yè)數(shù)據(jù)處理功能,包括reporting和ETL的每個(gè)階段
- SQL Server支持?jǐn)?shù)據(jù)安全性、數(shù)據(jù)冗余和審核
- 提供了資源調(diào)控
數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家使用不同的工具用于數(shù)據(jù)分析和機(jī)器學(xué)習(xí),范圍從免費(fèi)的開(kāi)源平臺(tái)到需要深厚技術(shù)知識(shí)的昂貴統(tǒng)計(jì)套件。但是使用SQL Server R或Python較這些傳統(tǒng)的工具提供了獨(dú)一無(wú)二的好處:
- 你可以通過(guò)使用所選的開(kāi)發(fā)環(huán)境開(kāi)發(fā)和測(cè)試解決方案,然后用T-SQL代碼的一部分部署R或 Python代碼。
- 從數(shù)據(jù)科研人員的便攜式計(jì)算機(jī)上移動(dòng)復(fù)雜計(jì)算到服務(wù)器上,避免數(shù)據(jù)移動(dòng)對(duì)企業(yè)的安全策略造成影響。
- 通過(guò)特殊的R包和Api改進(jìn)了性能和可擴(kuò)展性。不再忍受R的單線(xiàn)程、內(nèi)存密集型體系結(jié)構(gòu),可以處理大型數(shù)據(jù)集和多線(xiàn)程、多核、多進(jìn)程計(jì)算。
- 代碼可移植性:在SQL Server、Hadoop或Linux上利用機(jī)器學(xué)習(xí)服務(wù)器可以運(yùn)行解決方案。
應(yīng)用程序和數(shù)據(jù)庫(kù)開(kāi)發(fā)人員
數(shù)據(jù)庫(kù)開(kāi)發(fā)者肩負(fù)集成多種技術(shù)并將結(jié)果整合在一起的任務(wù),以便在整個(gè)企業(yè)中共享這些結(jié)果。數(shù)據(jù)庫(kù)開(kāi)發(fā)人員與應(yīng)用程序開(kāi)發(fā)人員、SQL開(kāi)發(fā)人員以及數(shù)據(jù)科學(xué)家一起設(shè)計(jì)解決方案,推薦數(shù)據(jù)管理方法,并設(shè)計(jì)或部署解決方案。
與SQL Server的集成為數(shù)據(jù)開(kāi)發(fā)人員提供許多好處:
- 在數(shù)據(jù)開(kāi)發(fā)人員使用SQL Server Management Studio部署解決方案時(shí),數(shù)據(jù)科研人員仍可在R Studio工作。并且沒(méi)有更多R或Python解決方案重新編碼的工作量。
- 使用T-SQL、R和Python優(yōu)化解決方案,可以更有效地利用數(shù)據(jù)庫(kù)專(zhuān)業(yè)人員在SQL服務(wù)器的知識(shí)。
- 輕松自動(dòng)處理大量數(shù)據(jù),例如根據(jù)生產(chǎn)數(shù)據(jù)生成必須反復(fù)運(yùn)行任務(wù)的預(yù)測(cè)評(píng)分。
- 利用Transact-SQL從任何應(yīng)用程序訪(fǎng)問(wèn)R或Python的腳本。
- 得益于在數(shù)據(jù)庫(kù)中計(jì)算多線(xiàn)程,API可以處理大型流式數(shù)據(jù)集
數(shù)據(jù)庫(kù)管理員
數(shù)據(jù)庫(kù)管理員必須將存在競(jìng)爭(zhēng)的項(xiàng)目和優(yōu)先級(jí)集成到數(shù)據(jù)庫(kù)服務(wù)器中,他們不僅需要為數(shù)據(jù)科學(xué)家提供數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限,還需要為各類(lèi)報(bào)表開(kāi)發(fā)者、業(yè)務(wù)分析人員和業(yè)務(wù)數(shù)據(jù)使用者提供數(shù)據(jù)訪(fǎng)問(wèn)權(quán)限,同時(shí)還負(fù)責(zé)維護(hù)操作和報(bào)告數(shù)據(jù)存儲(chǔ)的運(yùn)行狀況。在企業(yè)中,DBA是構(gòu)建和部署有效的數(shù)據(jù)科學(xué)基礎(chǔ)結(jié)構(gòu)的重要組成部分。
- SQL server的安全體系結(jié)構(gòu)R Services(數(shù)據(jù)庫(kù)內(nèi))使數(shù)據(jù)庫(kù)保持安全,并將執(zhí)行其隔離的外部腳本數(shù)據(jù)庫(kù)的實(shí)例操作。你可以指定誰(shuí)有權(quán)執(zhí)行機(jī)器學(xué)習(xí)腳本,并使用數(shù)據(jù)庫(kù)角色來(lái)管理包。
- 在單獨(dú)的進(jìn)程里確保你的服務(wù)器繼續(xù)按常規(guī)方式運(yùn)行。
- 使用SQL Server資源調(diào)控可讓你在控制的內(nèi)存和進(jìn)程分配給外部運(yùn)行時(shí),防止海量計(jì)算降低服務(wù)器的整體性能。
架構(gòu)師和數(shù)據(jù)工程師
架構(gòu)師設(shè)計(jì)集成機(jī)器學(xué)習(xí)生命周期的所有方面的工作流,數(shù)據(jù)工程師設(shè)計(jì)并構(gòu)建ETL解決方案以及確定如何優(yōu)化工程機(jī)器學(xué)習(xí)任務(wù)。整體的數(shù)據(jù)平臺(tái)必須用于平衡競(jìng)爭(zhēng)的業(yè)務(wù)需求。
由于R Services(數(shù)據(jù)庫(kù)內(nèi))緊密集成了其他Microsoft工具,例如商業(yè)智能、數(shù)據(jù)倉(cāng)庫(kù)堆棧、企業(yè)云、移動(dòng)工具和Hadoop等,因此它為想要提升高級(jí)分析功能的數(shù)據(jù)工程師或系統(tǒng)架構(gòu)師提供了一系列好處:
- 通過(guò)使用系統(tǒng)存儲(chǔ)過(guò)程來(lái)填充數(shù)據(jù)集、生成圖形。
- 調(diào)用Python或R腳本獲取預(yù)測(cè)結(jié)果。
- 在沒(méi)有多個(gè)并行工作流數(shù)據(jù)中,Azure 數(shù)據(jù)工廠(chǎng)和Azure SQL Database的支持可以容易地使用機(jī)器學(xué)習(xí)處理工作流中的云數(shù)據(jù)源。
想要購(gòu)買(mǎi)SQL Server正版授權(quán),或者獲取更多該產(chǎn)品相關(guān)信息的朋友可以點(diǎn)擊" "~
海量產(chǎn)品正在參加年終大促,價(jià)格優(yōu)惠!詳情請(qǐng)點(diǎn)擊" 年終巔峰鉅惠 "~
標(biāo)簽:
大數(shù)據(jù)數(shù)據(jù)分析數(shù)據(jù)管理數(shù)據(jù)挖掘
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@ke049m.cn