程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

Python數據可視化的3大步驟,你知道嗎?

編輯:Python

Python實現可視化的三個步驟:

  • 確定問題,選擇圖形

  • 轉換數據,應用函數

  • 參數設置,一目了然

喜歡本文記得收藏、關注、點贊。

注:技術交流、資料獲取,文末見

1、首先,要知道我們用哪些庫來畫圖?

matplotlib

Python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高級可視化效果庫,針對的點主要是數據挖掘和機器學習中的變量特征選取,seaborn可以用短小的代碼去繪制描述更多維度數據的可視化效果圖

其他庫還包括

Bokeh(是一個用於做瀏覽器端交互可視化的庫,實現分析師與數據的交互);Mapbox(處理地理數據引擎更強的可視化工具庫)等等

本篇文章主要使用matplotlib進行案例分析

第一步:確定問題,選擇圖形

業務可能很複雜,但是經過拆分,我們要找到我們想通過圖形錶達什麼具體問題。分析思維的訓練可以學習**《麥肯錫方法》和《金字塔原理》**中的方法。

這是網上的一張關於圖錶類型選擇的總結。

在Python中,我們可以總結為以下四種基本視覺元素來展現圖形:

  • :scatter plot 二維數據,適用於簡單二維關系;

  • :line plot 二維數據,適用於時間序列;

  • 柱狀:bar plot 二維數據,適用於類別統計;

  • 顏色:heatmap 適用於展示第三維度;

數據間存在分布,構成,比較,聯系以及變化趨勢等關系。對應不一樣的關系,選擇相應的圖形進行展示。

第二步:轉換數據,應用函數

數據分析和建模方面的大量編程工作都是用在數據准備的基礎上的:**加載、清理、轉換以及重塑。**我們可視化步驟也需要對數據進行整理,轉換成我們需要的格式再套用可視化方法完成作圖。

下面是一些常用的數據轉換方法:

  • 合並:merge,concat,combine_frist(類似於數據庫中的全外連接)

  • 重塑:reshape;軸向旋轉:pivot(類似excel數據透視錶)

  • 去重:drop_duplicates

  • 映射:map

  • 填充替換:fillna,replace

  • 重命名軸索引:rename

將分類變量轉換‘啞變量矩陣’的get_dummies函數以及在df中對某列數據取限定值等等。

函數則根據第一步中選擇好的圖形,去找Python中對應的函數。

第三步:參數設置,一目了然

原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或者其他圖錶裝飾項標題(Title),軸標簽(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。

第三步是在第二步的基礎上,為了使圖形更加清晰明了,做的修飾工作。具體參數都可以在制圖函數中找到。

2、可視化作圖基礎

Matplotlib作圖基礎

#導入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Figure和Subplot

matplotlib的圖形都比特於Figure(畫布)中,Subplot創建圖像空間。不能通過figure繪圖,必須用add_subplot創建一個或多個subplot。

figsize可以指定圖像尺寸。


#創建畫布
fig = plt.figure()
<Figure size 432x288 with 0 Axes>
#創建subplot,221錶示這是2行2列錶格中的第1個圖像。
ax1 = fig.add_subplot(221)
#但現在更習慣使用以下方法創建畫布和圖像,2,2錶示這是一個2*2的畫布,可以放置4個圖像
fig , axes = plt.subplots(2,2,sharex=True,sharey=True)
#plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)

顏色color,標記marker,和線型linestyle

matplotlib的plot函數接受一組X和Y坐標,還可以接受一個錶示顏色和線型的字符串縮寫:**‘g–’,錶示顏色是綠色green,線型是’–'虛線。**也可以使用參數明確的指定。

線型圖還可以加上一些標記(marker),來突出顯示數據點的比特置。標記也可以放在格式字符串中,但標記類型和線型必須放在顏色後面。


plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
[<matplotlib.lines.Line2D at 0x8c919b0>]

刻度,標簽和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖錶的範圍和刻度比特置和刻度標簽。

調用方法時不帶參數,則返回當前的參數值;調用時帶參數,則設置參數值。


plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim() #不帶參數調用,顯示當前參數;
#可將xlim替換為另外兩個方法試試
(-1.4500000000000002, 30.45)


plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o')
plt.xlim() #不帶參數調用,顯示當前參數;
#可將xlim替換為另外兩個方法試試
(-1.4500000000000002, 30.45)

設置標題,軸標簽,刻度以及刻度標簽


fig = plt.figure();ax = fig.add_subplot(1,1,1)
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0,250,500,750,1000]) #設置刻度值
labels = ax.set_xticklabels(['one','two','three','four','five']) #設置刻度標簽
ax.set_title('My first Plot') #設置標題
ax.set_xlabel('Stage') #設置軸標簽
Text(0.5,0,'Stage')

添加圖例

**圖例legend是另一種用於標識圖標元素的重要工具。**可以在添加subplot的時候傳入label參數。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111)
ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label參數,定義label名稱
ax.plot(np.random.randn(1000).cumsum(),'k--',label='two')
ax.plot(np.random.randn(1000).cumsum(),'k.',label='three')
#圖形創建完後,只需要調用legend參數將label調出來即可。
ax.legend(loc='best') #要求不是很嚴格的話,建議使用loc=‘best’參數來讓它自己選擇最佳比特置
<matplotlib.legend.Legend at 0xa8f5a20>

注解

除標准的圖錶對象之外,我們還可以自定義添加一些文字注解或者箭頭。

注解可以通過text,arrow和annotate等函數進行添加。text函數可以將文本繪制在指定的x,y坐標比特置,還可以進行自定義格式

plt.plot(np.random.randn(1000).cumsum())
plt.text(600,10,'test ',family='monospace',fontsize=10)
#中文注釋在默認環境下並不能正常顯示,需要修改配置文件,使其支持中文字體。具體步驟請自行搜索。

保存圖錶到文件

利用plt.savefig可以將當前圖錶保存到文件。例如,要將圖錶保存為png文件,可以執行

文件類型是根據拓展名而定的。其他參數還有:

  • fname:含有文件路徑的字符串,拓展名指定文件類型

  • dpi:分辨率,默認100 facecolor,edgcolor 圖像的背景色,默認‘w’白色

  • format:顯示設置文件格式(‘png’,‘pdf’,‘svg’,‘ps’,'jpg’等)

  • bbox_inches:圖錶需要保留的部分。如果設置為“tight”,則將嘗試剪除圖像周圍的空白部分

plt.savefig('./plot.jpg') #保存圖像為plot名稱的jpg格式圖像<Figure size 432x288 with 0 Axes>

3、Pandas中的繪圖函數

Matplotlib作圖

**matplotlib是最基礎的繪圖函數,也是相對較低級的工具。**組裝一張圖錶需要單獨調用各個基礎組件才行。Pandas中有許多基於matplotlib的高級繪圖方法,原本需要多行代碼才能搞定的圖錶,使用pandas只需要短短幾行。

我們使用的就調用了pandas中的繪圖包。

import matplotlib.pyplot as plt

線型圖

**Series和DataFrame都有一個用於生成各類圖錶的plot方法。**默認情況下,他們生成的是線型圖。

s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10))
s.plot() #Series對象的索引index會傳給matplotlib用作繪制x軸。
<matplotlib.axes._subplots.AxesSubplot at 0xf553128>

df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D'])df.plot() #plot會自動為不同變量改變顏色,並添加圖例<matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8>

Series.plot方法的參數

  • label:用於圖錶的標簽

  • style:風格字符串,‘g–’

  • alpha:圖像的填充不透明度(0-1)

  • kind:圖錶類型(bar,line,hist,kde等)

  • xticks:設定x軸刻度值

  • yticks:設定y軸刻度值

  • xlim,ylim:設定軸界限,[0,10]

  • grid:顯示軸網格線,默認關閉

  • **rot:**旋轉刻度標簽

  • use_index:將對象的索引用作刻度標簽

  • logy:在Y軸上使用對數標尺

DataFrame.plot方法的參數

DataFrame除了Series中的參數外,還有一些獨有的選項。

  • subplots:將各個DataFrame列繪制到單獨的subplot中

  • sharex**,sharey**:共享x,y軸

  • figsize:控制圖像大小

  • title:圖像標題

  • legend:添加圖例,默認顯示

  • sort_columns:以字母順序繪制各列,默認使用當前順序

柱狀圖

在生成線型圖的代碼中加上kind=‘bar’或者kind=‘barh’,可以生成柱狀圖或水平柱狀圖。

fig,axes = plt.subplots(2,1)data = pd.Series(np.random.rand(10),index=list('abcdefghij'))data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3)data.plot(kind='barh',ax=axes[1],grid=True)<matplotlib.axes._subplots.AxesSubplot at 0xfe39898>

柱狀圖有一個非常實用的方法:

利用value_counts圖形化顯示Series或者DF中各值的出現頻率。

比如df.value_counts().plot(kind=‘bar’)

Python可視化的基礎語法就到這裏,其他圖形的繪制方法大同小異。

重點是遵循三個步驟的思路來進行思考、選擇、應用。多多練習可以更加熟練。

技術交流

目前開通了技術交流群,群友已超過3000人,添加時最好的備注方式為:來源+興趣方向,方便找到志同道合的朋友

方式①、發送如下圖片至微信,長按識別,後臺回複:加群;
方式②、添加微信號:dkl88191,備注:來自CSDN
方式③、微信搜索公眾號:Python學習與數據挖掘,後臺回複:加群


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved