程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
您现在的位置: 程式師世界 >> 編程語言 >  >> 更多編程語言 >> Python

機器學習筆記 - LUX:用於自動探索性數據分析的 Python API

編輯:Python

1、自動化 EDA 的需求

        探索性數據分析是分析數據集以總結特征的重要統計意義並通過適當的視覺效果可視化每個特征的傳播的過程。但是,當數據集中有許多特征時,可視化每個特征是一項繁瑣的任務,因為檢查每個特征的相關性將是一個漫長的過程。因此,這就是 EDA 自動化過程在減少花在數據分析上的總時間以及花在優化特征選擇和異常值分析上的時間方面發揮重要作用的地方。

        這就是需要自動化探索性數據分析過程的地方,各種 Python 庫和 API(如 LUX、SweetViz、AutoViz 等)支持探索性數據分析的自動化。在本文中,讓我們探討如何使用 LUX Python API 來自動化探索性數據分析過程。

2、Lux庫

        Lux 是一個 Python 庫,它通過自動化可視化和數據分析過程來促進快速輕松的數據探索。通過簡單地在 Jupyter 筆記本中打印出數據框,Lux 推薦了一組可視化,突出顯示數據集中有趣的趨勢和模式。可視化通過交互式小部件顯示,使用戶能夠快速浏覽大量的可視化集合並理解他們的數據。

        LUX 模塊下支持的一些標准小部件如下。

相關小部件 

        相關性小部件有助於以散點圖的形式分析數據的兩個數字特征之間的相關性。所有數值特征將被映射成兩個特征的集合,並且可以可視化兩個特征之間的相關性,以便分析具有更高相關性的特征。

分布小部件 

        LUX python API 的分布小部件負責為所有數字特征生成直方圖視覺效果,通過直方圖箱提供每個特征的計數。分布小部件主要有助於分析數值特征的頻率

出現小部件 

        LUX python API 的出現小部件負責通過分析數據中存在的分類特征的出現頻率來生成水平條形圖。對於每個類別特征和每個類別的類別特征,頻率出現在出現小部件下以視覺形式提供。

地理小部件

        LUX API 的地理小部件基本上顯示了數據集中地理位置的等值線圖。為地圖上的每個區域計算某些數字特征的平均值,只需將鼠標懸停在地圖上,就可以在數據中的每個地理位置下計算每個區域的平均值。

3、可視化示例

        在這篇文章中,讓我們看看如何使用 LUX Python API 來自動化探索性數據分析過程。為了使用 LUX python API,我們必須首先在工作環境中安裝 LUX API。

!pip install lux-api

        現在在工作環境中安裝 LUX API 後,讓我們將工作環境中的 API 與 pandas 模塊一起導入以讀取數據集。

import lux
import pandas as pd

        在某些工作環境中,必須通過安裝相應的可視化小部件來允許某些用於從 API 進行可視化的小部件。 下面讓我們看看如何允許 LUX API 在 Google Colab 中生成視覺效果。

from google.colab import output
output.enable_custom_widget_manager()

        一旦設置了小部件,最後一步就是在工作環境中使用 pandas 模塊讀取數據集。

df=pd.read_csv('/content/drive/MyDrive/Colab notebooks/EDA using LUX/WA_Fn-UseC_-HR-Employee-Attrition.csv')
df

         這就是通過在 LUX 激活的工作環境中讀取數據幀,整個探索性數據分析過程是自動化的並生成各種小部件的方式。

相關小部件輸出解釋

        在上圖中,讓我們考慮第一個圖月收入和總工作時間,我們可以看到這兩個特征是如何相互關聯的。

分布小部件輸出解釋

        在上圖中,如果我們考慮第一個圖,我們可以很容易地解釋數據集中存在的每個數字特征的出現頻率。

出現小部件輸出解釋

        在上圖中,如果我們考慮第一個圖,我們可以清楚地看到特征性能評級有兩個類別,我們也可以相應地分析每個類別的出現頻率。

4、使用 LUX 的自定義特征可視化

        除了可視化整個數據集之外,LUX 還可以靈活地分析所需特征的特征,如下所示。但是對於選擇的自定義功能,LUX API 下支持新的三個小部件,即 Enhance、Filter 和 Generalize。

df.intent = ["YearsAtCompany","HourlyRate"]
df

        所以這裡從數據中選擇了兩個數值特征來使用LUX API來了解它的各種特征。

        因此,如果從數據集中選擇所需的特征,這就是 LUX API 生成的可視化小部件。讓我們嘗試了解每個小部件必須傳達的內容。

        自動化探索性數據分析有助於減少 60% 的數據清理和分析工作。通過自動化探索性數據分析,優化特征選擇和檢查特征之間的相關性變得容易,因此可以利用更多時間為使用數據的各個任務生成更通用和可靠的模型。在 python 提供的各種自動探索性數據分析 API 中,LUX 就是這樣一種 API,其中數據的整個分析是通過讀取 LUX 激活環境中的數據以從數據中生成合適的見解來獲得的。


  1. 上一篇文章:
  2. 下一篇文章:
Copyright © 程式師世界 All Rights Reserved