最新技術文檔
當前位置:首 頁>> 安徽快3过滤软件下载>> 技術文檔 [閱讀]

安徽快3走勢图: 

紫金橋實時數據庫——ETL數據抽取

安徽快3过滤软件下载 www.prmtu.icu  


 

 

 

 

產品概述

在實際的應用中,需要采集的數據來源于其它系統(已經處理或加工過的)并存儲在多個關系型數據庫中。(例如:石油石化行業中,新原油價格及各種重要化工產品價格,原油、石腦油等源材料的進廠量累計,公司本年度的經營目標,該部分數據分別來源于MES的生產數據庫和計劃系統的計劃數據庫)?;詿死嗲榭?,我們專門開發了一個數據抽取???。數據抽取???,將多個關系型數據庫中的生產數據按預先配置抽取策略實時抽取到紫金橋歷史數據庫。

 

抽取???/span>組成:

數據抽取??橛沙槿∨渲煤統槿≈蔥諧絳蛄講糠腫槌?。

第一部分數據抽取配置程序。

第二部分數據抽取運行程序。

 

功能概述:

  • 可以與多種關系型數據庫進行鏈接。
  • 集中抽取,可以把多個關系庫數據抽取到同一個實時數據庫中。
  • 對列的類型進行轉換
  • 列映射

在將源端的表中內容復制到目標端時,可以通過配置條件將指定列(字段)映射到目標端的點參數上。

  • 增加列

在將源端的表中內容復制到目標端時,通過配置條件可以增加一個數據列(字段),其值可以是固定值,也可以是表達式,然后映射到目標端的點參數上。

  • 刪除列

在將源端的表中內容復制到目標端時,通過配置條件可以在執行的結果集中刪除某列(原始表中的列不會被刪除),然后映射到目標端的點參數上。

  • 列轉換

在將源端的表中內容復制到目標端時,通過配置條件可以將源表中的某個列的類型、長度等等進行轉換。如將Varchar2類型轉換成Int類型等等。

  • 數據轉換

在將源端的表中內容復制到目標端時,根據配置條件將源表的某個列的數據進行轉換。例如將“男”、“女”轉換成“0”、“1”。這種轉換不涉及第三張表,也就是說這種轉換是固定的。

4)自由指定“抽取頻率”和“基準時間”。

5)支持調用關系庫的存儲過程(必須有返回集)。

6)提供清除噪聲數據的功能。

 

產品架構

數據抽取配置的實現方式采用4層架構:用戶界面層、業務處理層、傳輸層和數據處理層。

用戶界面層

用戶界面層為用戶提供簡潔友好的操作界面。通過用戶界面層可以方便的實現數據查看、編輯和維護等操作。用戶界面層將各項操作指令發送給業務處理層,在收到業務處理的響應后顯示在界面中。

業務處理層

業務處理層負責接收和處理用戶界面層的各項操作指令,并將指令的執行結果發送回用戶界面層。

業務處理層接收到用戶界面層的指令后,首先對指令進行解析,部分指令直接在業務處理層完成邏輯處理;部分操作需要將解析后的指令通過傳輸層發送給數據處理層,在收到執行結果后發送給用戶界面層。業務處理層同時管理組織機構的各種內容。

傳輸層

傳輸層負責將業務處理層解析后的指令發送給數據處理層,并將數據處理層的信息返回給業務處理層。

傳輸層通過連接管理??橛脛付ㄊ菰唇型ㄑ?,通過用戶驗證??檠櫓ぶ付ㄊ菰從沒畔⒌暮戲ㄐ?。在通訊過程中,傳輸層通過消息隊列??楹褪莼捍婺?樘岣咄ㄑ緞屎馱鑾肯低澄榷ㄐ?。

數據處理層

數據處理層負責最終執行操作指令。在接收到操作指令后,數據處理層與實時數據庫或配置文件交互,最終將指令執行結果通過傳輸層返回給業務處理層。

 

ETL數據抽取”程序,抽取過程示意圖

產品特點

數據抽取的特點可以概括為:分布部署、快速實施、維護便捷。

分布式配置:隨著分布式技術和負載均衡技術的廣泛應用,越來越多的情況需要遠程配置抽取信息。為了適應這種變化,數據抽取從設計之初即采用分布式架構。通過選擇數據源的方式,可以在本地數據庫系統完成對指定數據源中抽取信息的配置。

集中抽取:支持由多個不同種類或相同種類的關系型數據庫數據向同一個實時數據庫抽取。

清除噪聲數據數據倉庫系統中有可能存在著大量的噪聲數據,引起的主要原因有:濫用縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值等。即便是一個設計和規劃良好的數據庫系統,如果其中存在著大量的噪聲數據,那么這個系統也是沒有任何意義的,因為“垃圾進,垃圾出”(garbage in, garbage out),系統根本就不可能為決策分析系統提供任何支持。為了清除噪聲數據,必須在數據庫系統中進行數據清洗。數據抽取可以通過“匹配項”來完成數據的映射,從而達到清除噪聲數據的目的。

靈活的組織管理:數據抽取可以按照需要任意組織層級關系。如果發現層級關系建立錯誤,或實際層級關系發生改變時,現有的層級并不需要刪除,而是通過簡單的剪切與粘貼即可完成。