程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels

編輯:Python

目錄

 1、 IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels scipy statsmodels簡介

1.1 IPython 和 Jupyter

1.2 Pandas

1.3 matplotlib

1.4 scikit-learn

1.5 scipy

1.6 Numpy

1.7 statsmodels

2、安裝pandas matplotlib ipython scikit-learn

3、安裝Numpy+MKL

3.1 查看Python版本:win+R cmd 輸入python 即可查看

3.2 下載對應版本的Numpy、SciPy


 1、 IPython Jupyter NumPy Pandas Matplotlib Scikit-Learn statsmodels scipy statsmodels簡介

程序包功能IPython Jupyter這兩個程序包為許多使用 Python 的數據科學家提供了計算環境。NumPy這個程序庫提供了 ndarray 對象,可以用 Python 高效地存儲和操作大型數組。Pandas這個程序庫提供了 DataFrame 對象,可以用 Python 高效地存儲和操作帶標簽的 / 列式數據。Matplotlib這個程序庫為 Python 提供了許多數據可視化功能Scikit-Learn這個程序庫為最重要的機器學習算法提供了高效整潔的 Python 版實現。
學習中遇到問題沒人解答?小編創建了一個Python學習交流QQ群:732481539
尋找有志同道合的小伙伴,互幫互助,群裡還有不錯的視頻學習教程和PDF電子書、數據分析可視化源碼+數據集

1.1 IPython 和 Jupyter

ipython是一個python的交互式shell,比默認的python shell好用得多,支持變量自動補全,自動縮進,支持bash shell命令,內置了許多很有用的功能和函數。

IPython項目開始於2001年,由Fernando Pérez發起,旨在開發一個更具交互性的Python解釋器。在過去的16年中,它成為Python數據技術棧中最重要的工具之一。

盡管它本身並不提供任何計算或數據分析工具,它的設計側重於在交互計算和軟件開發兩方面將生產力最大化。它使用了一種執行-探索工作流來替代其他語言中典型的編輯-編譯-運行工作流。它還提供針對操作系統命令行和文件系統的易用接口。由於數據分析編碼工作包含大量的探索、試驗、試錯和遍歷,IPython可以使你更快速地完成工作。

2014年,Fernando和IPython團隊發布了Jupyter項目。Jupyter項目旨在設計一個適用於更多語言的交互式計算工具。IPython web notebook 則成為Jupyter notebook,可以支持超過40種編程語言。IPython系統目前可以作為一個內核(一種編程語言模式)用於在 Jupyter 中使用Python。

IPython自身已成為 Jupyter開源項目中的一個組件,後者提供交互性、探索性的高效環境。IPtyhon最古老、最簡單的“模式”就是一個加強版的Python命令行,用於提高編寫、測試、調試Python代碼的速度。

你也可以通過基於Web、支持多語言的代碼“筆記本”——Jupyter Notebook來使用IPython系統。IPython命令行和 Jupyter notebook對於數據探索和可視化非常有用。

Jupyter notebook系統允許你使用Markdown和HTML創建包含代碼和文本的富文檔。其他編程語言也針對Jupyter實現了內核,允許你在Jupyter中使用多種語言而不僅僅是Python。


1.2 Pandas

pandas 是用於進行數據分析的庫,可以生成類似Excel表格的數據表,可以從很多不同種類的數據庫中提取數據。

pandas的名字的來源是panel data,這是計量經濟學中針對多維結構化數據集的術語。pandas也是Python data analysis(Python數據分析)自身的簡寫短語。

pandas提供了高級數據結構和函數,這些數據結構和函數的設計使得利用結構化、表格化數據的工作快速、簡單、有表現力。它出現於2010年,幫助Python成為強大、高效的數據分析環境。常用的pandas對象是DataFrame,它是用於實現表格化、面向列、使用行列標簽的數據結構;以及Series,一種一維標簽數組對象。

pandas將表格和關系型數據庫(例如SQL)的靈活數據操作能力與NumPy的高性能數組計算的理念相結合。它提供復雜的索引函數,使得數據的重組、切塊、切片、聚合、子集選擇更為簡單。由於數據操作、預處理、清洗在數據分析中是重要的技能,pandas將是重要主題。


1.3 matplotlib

matplotlib 是繪圖庫,能夠輸出折線圖、散點圖、直方圖。

matplotlib是最流行的用於制圖及其他二維數據可視化的Python庫。它由John D. Hunter創建,目前由一個大型開發者團隊維護。matplotlib被設計為適合出版的制圖工具。

對於Python編程者來說也有其他可視化庫,但matplotlib依然使用最為廣泛,並且與生態系統的其他庫良好整合。我認為將它作為默認可視化工具是一個安全的選擇。


1.4 scikit-learn

scikit-learn是非常流行的python機器學習庫,包含眾多頂級機器學習算法。

scikit-learn項目誕生於2010年,目前已成為Python編程者首選的機器學習工具包。僅僅七年,scikit-learn就擁有了全世界1 500位代碼貢獻者。其中包含以下子模塊。

分類:SVM、最近鄰、隨機森林、邏輯回歸等

回歸:Lasso、嶺回歸等

聚類:k-means、譜聚類等

降維:PCA、特征選擇、矩陣分解等

模型選擇:網格搜索、交叉驗證、指標矩陣

預處理:特征提取、正態化

1.5 scipy

scipy是強大的科學計算工具集,有很多函數,scikit-learn需要使用scipy對算法進行執行。

SciPy是科學計算領域針對不同標准問題域的包集合。以下是SciPy中包含的一些包:

scipy.integrate數值積分例程和微分方程求解器scipy.linalg線性代數例程和基於numpy.linalg的矩陣分解scipy.optimize函數優化器(最小化器)和求根算法scipy.signal信號處理工具scipy.sparse稀疏矩陣與稀疏線性系統求解器scipy.specialSPECFUN的包裝器。SPECFUN是Fortran語言下實現通用數據函數的包,例如gamma函數。scipy.stats標准的連續和離散概率分布(密度函數、采樣器、連續分布函數)、各類統計測試、各類描述性統計。

SciPy與NumPy一起為很多傳統科學計算應用提供了一個合理、完整、成熟的計算基礎。

1.6 Numpy

Numpy是基礎科學計算庫,對scikit-learn十分重要,scikit-learn使用Numpy數組形式的數據進行處理。

NumPy是Numerical Python的簡寫,是Python數值計算的基石。它提供多種數據結構、算法以及大部分涉及Python數值計算所需的接口。NumPy還包括其他內容:

快速、高效的多維數組對象ndarray基於元素的數組計算或數組間數學操作函數用於讀寫硬盤中基於數組的數據集的工具線性代數操作、傅裡葉變換以及隨機數生成

成熟的C語言API,允許Python拓展和本地的C或C++代碼訪問NumPy的數據結構和計算設施。

除了NumPy賦予Python的快速數組處理能力之外,NumPy的另一個主要用途是在算法和庫之間作為數據傳遞的數據容器。對於數值數據,NumPy數組能夠比Python內建數據結構更為高效地存儲和操作數據。

此外,用底層語言編寫的庫,例如用C或Fortran編寫的庫,可以在NumPy數組存儲的數據上直接操作,而無須將數據復制到其他內存中後再操作。因此,許多Python的數值計算工具將NumPy數組作為基礎數據結構,或與NumPy進行無縫互操作。

1.7 statsmodels

statsmodels是一個統計分析包。它源自斯坦福大學統計學教授Jonathan Taylor 利用R語言實現的各類分析模型。Skipper Seabold 和 Josef Perktold早在2010年便創建了新的statsmodels項目。自那之後該項目迅速成長,擁有大量活躍用戶和貢獻者者。

Nathaniel Smith 開發了Patsy項目,為R語言公式系統所驅動的statsmodels包提供公式、模型規范框架。

與scikit-learn相比,statsmodels包含經典的(高頻詞匯)統計學、經濟學算法。它所包含的模型如下。

回歸模型:線性回歸、通用線性模型、魯棒線性模型、線性混合效應模型等

方差分析(ANOVA )

時間序列分析:AR、ARMA、ARIMA、VAR等模型

非參數方法:核密度估計、核回歸

統計模型結果可視化

statsmodels更專注於統計推理,提供不確定性評價和p值參數。相反,scikit-learn更專注於預測。

2、安裝pandas matplotlib ipython scikit-learn

pip install pandas matplotlib ipython scikit-learn

3、安裝Numpy+MKL

要下載自己Python對應版本的Numpy哦:

3.1 查看Python版本:win+R cmd 輸入python 即可查看

3.2 下載對應版本的Numpy、SciPy

cp38對應python3.8           cp311對應python3.11           amd64代表64位

https://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy

https://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy

 

下載好.whl後在下載所在文件夾打開cmd窗口

pip install numpy‑1.22.4+mkl‑cp38‑cp38‑win_amd64.whl
pip install SciPy‑1.8.1‑cp38‑cp38‑win_amd64.whl


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved