開源BI系統簡述(轉載)

bq_wang發表於2007-12-20

文章來源:JavaEye

本文介紹了ETL工具、報表工具、OLAP工具的各項開源資源情況,有一定的普及和參考價值。


這些眾多的BI專案從規模和對BI系統支撐的完善程度上來說,大體可以分為Framework、Stand-alone Tools和BI Suit三種型別。

  •   Framework

  開源框架,這是在商業BI系統中所沒有的。我們可以使用它們來構建自己的BI工具,或者增強和擴充套件我們的BI解決方案。

  •   Stand-alone Tools

  獨立的BI工具,這是開源專案中數量最多的一類。很多工具只側重BI系統中的某個環節和方面,如ETL、Report、OLAP和Database等等。

  •   BI Suit

  在統一的架構下提供了多種BI系統的特性的工具集合。就目前的情況看,不管是商業軟體還是開源軟體,還沒有任何一個套件提供了完整的端到端的BI解決方案。這些開源的BI Suit是透過連線多個其他的元件和工具的方式形成套件的,由於BI系統涉及到的工具是非常多的,所以整合一套完整的BI解決方案是很困難的。

  BI解決方案中的工具

  一個完整的BI解決方案中有多種工具來完成BI系統中各個階段的工作。

  ETL工具

  資料抽取、轉換和載入工具。優秀的ETL工具應該具有以下特性:

  •   1、 Workflow Management, Job Execution and Scheduling Manager。能方便地定義流程並自動化執行ETL任務。
  •   2、 Centralized Metadata Repository and Management。集中儲存和管理符合業界標準的後設資料。
  •   3、 Data Profile and Validation。可以檢驗資料的質量。
  •   4、 High Performance。在大負荷的任務執行中仍然有良好的效能。
  •   5、 Scalable, Platform Independent。具有良好的彈性,支援多種作業系統和資料庫系統,能操作多種異構的資料來源。
  •   6、 Open Architecture and API。具有開放的架構和易於使用的二次開發介面。

  目前較為知名的開源ETL工具有:

  •   1、 KETL,由具有IBM和KPMG背景的Kinetic Networks公司開發,現在已經有三年多的產品應用歷史,成功應用於一些產品中,在點選流(ClickStream)分析應用中表現出色。KETL採用Plug-in的架構,使用Java開發。
  •   2、 KETTLE,為一個後設資料驅動的ETL工具。已經加入Pentaho。
  •   3、 Clover ETL,為一個基於Java的ETL Framework,可以用來開發自己的ETL應用。
  •   4、 Enhydra Octopus,為一個基於Java的ETL工具,使用JDBC來連線各種資料來源,易於使用和部署。曾有人應用於電信網路資源分析系統中。

  報表工具

  優秀的報表工具通常具有以下特性:

  •   1、 支援多種資料來源。
  •   2、 直觀的視覺化設計器,簡單易用的報表定製功能。
  •   3、 方便的資料訪問和格式化,豐富的資料呈現方式。
  •   4、 符合資料呈現的通用標準,能和應用程式很好地進行結合。
  •   5、 易於擴充套件和部署。
    目前較為知名的開源報表工具有:
    •   1、 JasperReports,一個優秀的Java報表工具,始於2001,現在JasperSoft公司持續開發和支援該工具。該工具類似於商業軟體Crystal Report,支援PDF、HTML、XLS、CSV和XML檔案輸出格式,現在是Java開發者最常用的報表工具。
    •   2、 OpenReports,提供基於web的靈活報表解決方案,透過瀏覽器自動生成動態PDF,XLS,HTMLCSV 和Chart報表,它是用Java開發的,使用JasperReports 作為報表引擎,利用到的開源技術有Hibernate,Veloctiy,Webwork。
    •   3、 JFreeReport,現在是Pentaho的一部分,它是一個優秀的用來生成報表的Java類庫。它為Java應用程式提供一個靈活的列印 功能並支援輸出到印表機和PDF, Excel, HTML和XHTML, PlainText, XML和CSV檔案中。
    •   4、 Eclipse BIRT,是Eclipse下面的一個企業智慧和報表 工具,能為J2EE的WEB應用程式建立漂亮醒目的PDF或者HTML格式的報表,它提供了核心的報表功能。

      OLAP工具

      聯機分析處理工具。目前開源的OLAP工具也分為MOLAP、ROLAP和HOLAP,優秀的OLAP工具通常有以下特性:

    •   1、 良好的執行效能,能快速地進行分析處理工作。
    •   2、 良好的適用性和可伸縮性。
    •   3、 開放式介面和豐富的API。

      目前較為知名的開源OLAP工具有:

    •   1、 Mondrian,是Pentaho的一部分,為一個用Java開發的OLAP伺服器,實現了MDX語言、XML解析和JOLAP規範,可以不寫SQL就能分析儲存於SQL 資料庫的龐大資料集,可以封裝JDBC資料來源並把資料以多維的方式展現出來。
    •   2、 JPivot,是一個JSP 自定製的標籤庫,可以繪製一個OLAP表格和圖表。使用者可以執行 典型的OLAP導航,如下鑽,切片和方塊。它使用Mondrian 作為其OLAP伺服器。它使用WCF (Web Component Framework) ,基於XML/XSLT來渲染Web UI元件。JPivot在後設資料快取方面的過於簡化的整體性初始化裝載的做法將限制它只能處理很小的立方體(Cube)。

      資料庫

      開源的資料庫也有很多,大多數為關係型資料庫,少數為應用於資料倉儲環境做了專門的最佳化工作。Bizgres以PostgreSQL為基礎進行了資料倉儲環境下的最佳化,提高了分析查詢效能。

      開源BI套件

      下面列出相對成熟和完整,並且有借鑑意義的開源BI套件。

      Bizgres

      為GreenPlum公司主導的開源專案,和Sun公司達成合作關係。Bizgres為BI應用而對PostgreSQL做了最佳化,提高了大負荷的平行計算能力,在BI環境中,相對於普通的關係型資料庫具有卓越的資料處理效能。Bizgres的資料庫平臺可以和KETL和JasperReports進行整合,從而形成一個BI套件:

    •   1、 資料庫:BI專業資料庫Bizgres,或者大型應用中的高效能伺服器Bizgres MPP,能比普通關聯式資料庫快20倍
    •   2、 ETL工具:KETL
    •   3、 報表工具:JasperReports
      Openi

        是一個Java開發的Web應用,能對OLAP伺服器、關聯式資料庫和資料探勘伺服器進行分析和報表展示,非常易於使用和部署,介面美觀友好,後續還將支援資料探勘和ETL等。Openi主要包括:

      •   1、 OLAP展示:JPivot
      •   2、 報表工具:JFreeChart
      •   3、 分析資料來源聯結器

        Pentaho

        是一個以工作流為核心的、強調面向解決方案而非工具元件的BI套件,整合了多個開源專案,目標是和商業BI相抗衡。它包括:

      •   1、 工作流引擎:Shark and JaWE
      •   2、 資料庫:Firebird RDBMS
      •   3、 整合管理和開發環境:Eclipse
      •   4、 報表工具:Eclipse BIRT
      •   5、 ETL工具:Enhydra/Kettle
      •   6、 OLAP Server:Mondrian
      •   7、 OLAP展示:JPivot
      •   8、 資料探勘元件:Weka
      •   9、 應用伺服器和Portal伺服器:JBoss
      •   10、 單點登陸服務及LDap認證:JOSSO
      •   11、 自定義指令碼支援:Mozilla Rhino Javascript指令碼處理器

        由上可見Pentaho是一個很完善的BI解決方案。Pentaho偏向於與業務流程相結合的BI解決方案,側重於大中型企業應用。

        SpagoBI

        SpagoBI 整合了Mondrain和JProvit,能夠透過OpenLaszlo產生實時報表。SpagoBI使用java開發,不依賴於具體的作業系統,有很強的擴充套件能力。它主要包括:

      •   1、 報表工具:JasperReports /Eclipse BIRT/ iReport
      •   2、 OLAP Server:Mondrian
      •   3、 OLAP展示:JPivot
      •   4、 資料探勘元件:Weka
      •   5、 Map引擎:Geo
      •   6、 ETL:BIE
      •   7、 搜尋引擎:Lucene
      •   8、 Dashboard:OpenLaszlo
      •   9、 Portal Server:JBoss/ Tomcat/ JOnAS

        根據其Roadmap可以看出,SpagoBI將融入更多的BI功能,甚至BI之外的功能。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/6517/viewspace-145592/,如需轉載,請註明出處,否則將追究法律責任。

相關文章