程序師世界是廣大編程愛好者互助、分享、學習的平台,程序師世界有你更精彩!
首頁
編程語言
C語言|JAVA編程
Python編程
網頁編程
ASP編程|PHP編程
JSP編程
數據庫知識
MYSQL數據庫|SqlServer數據庫
Oracle數據庫|DB2數據庫
 程式師世界 >> 數據庫知識 >> SqlServer數據庫 >> 關於SqlServer >> SQL Server 2008 數據挖掘的概念(3)

SQL Server 2008 數據挖掘的概念(3)

編輯:關於SqlServer


 准備數據

  如以下關系圖中突出顯示的那樣,數據挖掘過程的第二步就是合並和清除定義問題步驟中標識的數據。

  

  數據可以分散在公司的各個部門並以不同的格式存儲,或者可能包含錯誤項或缺少項之類的不一致性。例如,數據可能顯示客戶在產品推向市場之前購買該產品,或者客戶在距離她家 2,000 英裡的商店定期購物。

  數據清除不僅僅是刪除錯誤數據,還包括查找數據中的隱含相關性、標識最准確的數據源並確定哪些列最適合用於分析。例如,應當使用發貨日期還是訂購日期?最佳銷售影響因素是數量、總價格,還是打折價格?不完整數據、錯誤數據和輸入看似獨立,但實際上有很強的關聯性,它們可以以意想不到的方式影響模型的結果。因此,在開始生成挖掘模型之前,應確定這些問題及其解決方式。

  通常,您使用的是一個非常大的數據集,並且無法仔細查看每個事務。因此,必須使用某種自動化的形式(如,在 Integration Services 中)來浏覽數據並找到這些不一致。Microsoft SQL Server 2008 Integration Services (SSIS) 包含完成該步驟所需的所有工具,步驟內容包括轉換到自動執行數據清除和合並。

  需要特別注意的是用於數據挖掘的數據不必存儲在聯機分析處理 (OLAP) 多維數據集中,或者甚至不必存儲在關系數據庫中,但是您可以將它們作為數據源使用。您可以使用已被定義為 Analysis Services 數據源的任何數據源執行數據挖掘。這些數據源可以包括文本文件、Excel 工作簿或來自其他外部提供程序的數據。

  浏覽數據

  如以下關系圖中突出顯示的那樣,數據挖掘過程的第三步就是浏覽已准備的數據。

  

  1. 上一頁:
  2. 下一頁:
Copyright © 程式師世界 All Rights Reserved