程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Pandas 新手容易犯的 6 個錯誤

編輯:Python

我們在這裡討論6個新手容易犯的錯誤,這些錯誤與你所使用工具的API或語法無關,而是與你的知識和經驗水平直接相關。在實際中如果出現了這些問題可能不會有任何的錯

誤提示,但是在應用中卻會給我們帶來很大的麻煩。

01

使用Pandas自帶的函數讀取文件

第一個錯誤與實際使用Pandas完成某些任務有關。具體來說我們在實際處理表格的數據集都非常龐大。使用pandas的read_csv讀取大文件將是你最大的錯誤。

為什麼?因為它太慢了!看看這個測試,我們加載TPS十月數據集,它有1M行和大約300個特性,占用了2.2GB的磁盤空間。

import pandas as pd
%%time
tps_october = pd.read_csv("data/train.csv")
Wall time: 21.8 s

read_csv花了大約22秒。你可能會說22秒並不多。但是在一個項目中,需要在不同的階段執行許多實驗。我們會創建很多單獨的腳本,用於清理、特征工程、選擇模型,以及其他任務。多次等待數據加載20秒就變得很長了。此外,數據集可能會更大時間就會更長。那麼有什麼更快的解決方案呢?

解決方案是在這個階段放棄Pandas,使用其他為快速IO設計的替代方案。我最喜歡的是datatable,但你也可以選擇Dask, Vaex, cuDF等。這裡是用datatable加載相同的數據集所需要的

  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved