翻譯|使用教程|編輯:鮑佳佳|2021-03-04 10:40:31.320|閱讀 134 次
概述:當您開始使用Python進行數(shù)據(jù)分析和數(shù)據(jù)科學(xué)時,Pandas是您將學(xué)習(xí)的第一個庫之一。其可幫助您處理數(shù)據(jù)集,轉(zhuǎn)換和清理數(shù)據(jù)以及獲取統(tǒng)計信息。在本教程中,我們將回答人們在使用熊貓時遇到的10個最常見的問題。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
PyCharm是一種Python IDE,其帶有一整套可以幫助用戶在使用Python語言開發(fā)時提高其效率的工具。此外,該IDE提供了一些高級功能,以用于Django框架下的專業(yè)Web開發(fā)。PyCharm現(xiàn)已加入在線訂購,點擊此處了解價格詳情。
Pandas教程:Python數(shù)據(jù)框架的10個常見問題
當您開始使用Python進行數(shù)據(jù)分析和數(shù)據(jù)科學(xué)時,Pandas是您將學(xué)習(xí)的第一個庫之一。其可幫助您處理數(shù)據(jù)集,轉(zhuǎn)換和清理數(shù)據(jù)以及獲取統(tǒng)計信息。
在本教程中,我們將回答人們在使用熊貓時遇到的10個最常見的問題。
數(shù)據(jù)集
在本教程的第一部分中,我們將使用包含城市人口樣本數(shù)據(jù)以及有關(guān)土地面積和人口密度的一些信息的數(shù)據(jù)集。
Pandas Loc和iloc
pandas.loc[] 有助于通過標簽或布爾數(shù)組切片訪問一組行和列。
讓我們選擇墨西哥城的人口。
下面我們僅打印墨西哥城的人口。
使用,.iloc[]您可以使用數(shù)字整數(shù)索引選擇列。
請記住以下幾點:
重命名列
接下來,我們將重命名這些列,以使它們將來更易于訪問。
有幾種方法可以做到這一點:
在pandas DataFrame中選擇多個列
讓我們將DataFrame分為兩個包含以下內(nèi)容的DataFrame:
我們可以通過幾種方式做到這一點:
熊貓按列合并兩個表
接下來,我們將垂直連接我們創(chuàng)建的兩個表。這些表具有相同的City列,因此我們將使用該pd.merge函數(shù)來連接兩個表。
該left_on和right_on參數(shù)指示列名在第一和第二個表合并上。
使用pandas更改pandas中的列類型
與數(shù)據(jù)幀的工作進一步,我們需要轉(zhuǎn)變Population,Area以及Density從字符串列轉(zhuǎn)換為數(shù)字。
為此,我們將:
分組并變成一個DataFrame
現(xiàn)在,讓我們對DataFrame進行分組,Country并計算此數(shù)據(jù)樣本中每個國家/地區(qū)的人口。
困難之pd.groupby處在于它返回一個groupby對象,而不是DataFrame。在下面的示例中,我們將展示如何從groupby對象創(chuàng)建DataFrame。
我們將對進行分組Country,同時計算Population和Area列的總和。我們將刪除密度列,因為我們不再需要它。
如何在Pandas中的DataFrame中的行上進行迭代
盡管遍歷行可能不是最快的解決方案,但有時仍然可以派上用場。您可以使用循環(huán).iterrows()功能來做到這一點。
考慮嘗試對applyPandas DataFrame的函數(shù)或向量化表示執(zhí)行相同的操作。在大型數(shù)據(jù)集上,這將提高計算速度。
在下面,我們將Population列除以1000,并以千為單位獲得人口數(shù)。下面有3個替代代碼示例。
如何根據(jù)列值從DataFrame中選擇行
讓我們選擇人口超過1000萬人,面積不到2000平方公里的國家。
您可以通過在中輸入邏輯約束來做到這一點[]。
如何更改DataFrame列的順序
您可以簡單地通過以不同順序切片現(xiàn)有的DataFrame來做到這一點。
用Pandas清理數(shù)據(jù)
要開始使用數(shù)據(jù),您需要清理數(shù)據(jù)。
首先的基本步驟是:
讓我們下載帶有網(wǎng)球比賽結(jié)果的數(shù)據(jù)集。
我們將降大任于重復(fù)使用pd.drop_duplicates,以inplace = True將更改應(yīng)用到數(shù)據(jù)幀。
現(xiàn)在,讓我們找出DataFrame中是否存在NaN值。
df.isna().any() 當該列包含NaN值時為True。
在此minutes列中,我們具有91%的NaN值,因此將其刪除,因為它不包含任何有用的信息。
在winner_age,loser_age,loser_rank,和winner_rank列沒有太多的NaN值,所以我們會用中位數(shù)代替NaN值。
有了df.describe我們,我們可以獲得有關(guān)數(shù)字列數(shù)據(jù)的統(tǒng)計信息。
這就是我們的Pandas教程。你學(xué)會了嗎?立即下載體驗吧!您有任何疑問或意見歡迎評論!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@ke049m.cn
文章轉(zhuǎn)載自: