您现在的位置：程式師世界 >> 編程語言 > >> 更多編程語言 >> Python

pandas去重保留前一條或後一條 drop_duplicates

編輯：Python

pandas去重保留前一條或後一條 drop_duplicates

subset參數
keep參數
inplace參數
例子

pandas庫中的drop_duplicates()函數簡直就是去重的神器，該函數還可以在去重中人為設置保留靠前的記錄還是靠後的記錄。

DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False)[source]

一共有三個參數，subset、keep和inplace

subset參數

subset : column label or sequence of labels, optional
Only consider certain columns for identifying duplicates, by default use all of the columns

subset參數用來設置以哪些列的重復作為重復的標准，參數為列標簽，如果不設置該值，則默認為以所有列作為重復的判斷條件。

keep參數

keep : {
‘first’, ‘last’, False}, default ‘first’
first : Drop duplicates except for the first occurrence.
last : Drop duplicates except for the last occurrence.
False : Drop all duplicates.

keep可以設置為三個參數，默認為first
first表示保留第一次出現的記錄
last表示保留最後一次出現的記錄
False表示把所有重復的刪除

inplace參數

inplace : boolean, default False
Whether to drop duplicates in place or to return a copy

inplace可以設置為True或False，默認為False
True表示原地去重，會改變dataframe
False表示會返回一個新的dataframe，不會改變原來的變量

例子

import pandas as pd
data = pd.DataFrame([[1, 'Wang', 20], [2, 'Li', 20], [1, 'Wang', 21], [1, 'Wang', 20]], columns=['id', 'name', 'age'])

數據為

 id name age
0 1 Wang 20
1 2 Li 20
2 1 Wang 21
3 1 Wang 20

很顯然第0條和第3條記錄重復，使用默認用法即可去除

print(data.drop_duplicates())

結果是

 id name age
0 1 Wang 20
1 2 Li 20
2 1 Wang 21

很顯然是保留了第0條記錄，而去除了第3條記錄，可通過設置keep參數為last使其保留後一條參數

print(data.drop_duplicates(keep='last'))

結果是

 id name age
1 2 Li 20
2 1 Wang 21
3 1 Wang 20

同時對於數據集

 id name age
0 1 Wang 20
1 2 Li 20
2 1 Wang 21
3 1 Wang 20

認為id和name相同即為重復的話，可以使用

print(data.drop_duplicates(['id', 'name']))

得到

 id name age
0 1 Wang 20
1 2 Li 20

如果想把重復的數據都刪除，則使用

print(data.drop_duplicates(['id', 'name'], keep=False))

得到

 id name age
1 2 Li 20

上一篇文章： pandas排序 sort_values
下一篇文章： python桌面程序開發 wxpython、pyinstaller

Python

Pythonfirst-order-model實現讓照片動起來

目錄前言資源下載和安裝安裝補充工具代碼驗證前言看

為什麼Python創建與安全相關的應用時，不使用random模塊

為什麼Python創建與安全相關的應用時，不使用random

Python problem solving: what is wrong with this family? Strangers at home

CheckIO It is a foreign progra

Python在各領域技術應用（地球科學、氣象、機器學習、海洋等）

Python語言在地球科學領域中的實踐技術應用高級培訓班時間

Python 對 split函數的理解

Python 對 split函數的理解說白了就是

Python request模塊（三）—— 正則表達式獲取小說鏈接

本節是自己改編的用正則表達式抓取數據案例，在第一篇結尾我們留

没有相关文章

熱門圖文

php文件上傳後端處理小技巧 ASP.net 頁面被關閉後，服務器端是否仍然執行中？ C語言中的堆棧小議數據結構-java寫宿捨管理系統要求用文件存儲數據 php 安全過濾 jsp自定義標簽用法實例詳解，jsp自定義實例詳解 asp下過濾非法的SQL字符的函數代碼 tomcat-項目啟動報出來的，能夠正常啟動。

欄目導航

pandas去重 保留前一條或後一條 drop_duplicates