ETL
ETLツールとは、組織の内外に散在するデジタルデータを抽出・収集(Extract)し、用途に応じて変換・加工(Transform)したうえで、その先にある格納先に有用な情報として配信・送出(Load)してくれる、ITプロダクトのカテゴリーの一つです。
前記の単語、Extract、Transform、Loadそれぞれの頭文字を略して、ETL(イー・ティー・エル)と称します。
1990年代前後から活発化したダウンサイジングとオープン化の流れを受けて、業務や用途に合わせたシステムの数が増えると同時にデータの置き場所が分散していき、データ量自体も指数関数的に増えていきました。
そこで、データの集積場所となるデータウェアハウス(Data Warehouse:DWH)という考え方が広まりましたが、下記のような理由によりデータの整理・整頓に迫られたことで生まれたのがETLツールです。
これらの結果、各所に点在するデータを集めると同時に一定の基準で整理したうえで、使いやすくまとめてくれる「ETLツール」が必要になったのです。
ETLツールは、デジタル化されたデータが加工・共有されるデータフローの全体像のなかで、中間的な位置を担うツールです。
その特徴は、対象が「定型データ」と呼ばれる型の決まったデータに絞られるところです。財務会計や販売管理などの基幹系システム、POSや顧客管理システムなどに代表される定型データは、あらかじめ決められた項目に対して可変する値が蓄積されます。
これに対して「非定型データ」は、ルーティン化するほどの頻度がなかったり、データの発生から直接活用・共有されたりするものとして、ETLツールを介さずに利用されるという違いがあります。
それでは、ETLツールの具体的な操作フローについて、Waha! Transformerの機能を例に説明します。
データの抽出から変換・送出に至るETLツールの操作では、最初に「タスク」(Waha! Transformerでは「ジョブ」)を作成し、下記のような設定を行います。 なお、一つひとつのタスクは、私たちが普段行っているレポート作成などの定型業務に該当し、ETLツール1カ所に追加していくことができます。
抽出元のシステムやファイル、そのなかにある抽出項目を特定し、アクセスに必要なログイン情報などを設定します。
文字コードなどデータ形式の変換方法、項目の並び替えなどファイルレイアウトの加工方法について設定します。
BI・DWHなどデータの配信・送出先のシステムの項目を特定し、アクセスに必要なログイン情報などを設定します
作成したタスクの動作テストが終わり抽出元のデータが更新されたら、タスクの実行です。
Waha! Transformerでは、作成したタスク(ジョブ)の[実行]ボタンをクリックするだけ。
さらに、「毎朝8時」のような日次・定時処理はもちろんのこと、例えば自社の営業日カレンダーをマスターデータとして設定した上で、「年末年始は実行しない」のように、柔軟なスケジューリングで自動実行することもできます。
作成したタスクは、実行担当者の異動や退職などでログイン情報が変わったり、抽出・送出先のシステムでネットワーク構成やデータ保存場所が変わったりした場合、設定情報を変更しなければいけません。
Waha! Transformerであれば、作成したタスク(ジョブ)ごとに設定情報をHTMLファイルとして保存できるので、設定項目のどこを変更すればよいか探しやすいです。さらに、タスク(ジョブ)ごとの改修履歴も保持しているので、「前の設定に戻したい」場合など改修の手間を大幅に減らせます。
ETLツールは、各種業務アプリケーションやデータベース、Excelやテキストファイルのデータを連携させてくれるツールですが、同様の機能を持った周辺ツールがいくつかあります。
などなど、お困りの方からのお問い合わせが少なからずあります。
私たちのお勧めは「まず、データ連携基盤をETLツールで構築しましょう。」となりますが、このセクションでは、ETLツールと周辺ツールとの違いや特徴を整理してみます。
ここではデータ活用・データマネージメントという観点で、ETLツールと周辺ツールの特徴的なところをまとめてみます。
各ツールとも、一般論・外形的なところからできるだけ客観的に俯瞰していますので、個々の製品・サービスによって相違点はあるかもしれません。細かいところで違和感がある場合はどうかご容赦ください。
カテゴリー | ETL | EAI | BI・DWH | RPA |
---|---|---|---|---|
目的 | データ連携 | データカタログ | データ分析 | データ更新 |
役割 | Data Transformer | Data Integrator | Data Analyzer | Data Updater |
分類 | ミドルウェア | 業務アプリケーション | ミドルウェア | |
起点 | データフロー | 業務フロー | ||
主管 | IT管理者 | データ管理者 | ||
前提 | 事前に入力・生成されたデータを加工・流用するために利用する | |||
対象データ | 定型・構造化データ ※基幹系システムなどRDB等に格納される定型データの加工処理を機械化することで作業効率を向上 ※ビッグデータなど非定型・非構造化データも収集・保管する「データレイク」の機能を有するものもある |
|||
処理頻度 | 定常 | 随時 | 随時 | 定常・随時 |
データ保管 | × | △ | ◎ | × |
選定ポイント | データ処理性能 | データ連携範囲 | グラフ・チャート生成 | 自動化の範囲 |
いかがでしょう?
比較項目などはまだまだあるかと思いますが、その際はぜひ、お問い合わせフォームからご意見をお寄せいただければ幸いです。
それではここから、比較した各ツールごとに解説させていただきます。
EAIとは、組織内外にいくつもある業務アプリケーションのデータを統合:カタログ化するITプロダクトのカテゴリーです。
ETLツールがRDBを中心に日次や月次など定時・定常的な大量データの更新を担うために“データ処理性能”が重視されるのに対し、EAIは幅広いアプリケーションを対象に、随時・リアルタイムな差分・少量データの更新を目的としているので、データの更新頻度と範囲によってETLツールと使い分けられることが多いと言えます。
EAIはカタログとしてデータ一覧機能(リポジトリーDB)を有することで差分抽出やリアルタイム更新を実現しますが、ETLツールは自らの管理下にリポジトリーDBを保管しないため、処理性能やデータセキュリティという観点では、ETLツールの方が運用が容易になるでしょう。
これらの違いから、ETLツールとEAIを併存させることもできますが、データ連携対象の業務アプリケーションがETLツールでカバーできるのであれば、データの処理性能やセキュリティといった観点からETLツールを選択する方が、合理的な選択となるのではないでしょうか。
データ分析ツールとデータ保管庫のセットにより、データ分析基盤と呼べるのがBI・DWHです。
データ分析を行うためには、分析テーマの入口や定点観測ポイントとしてのグラフやチャートがまずあり、その表示機能:ビジュアライズを担うのがBIツール、そこで表示させる基礎データを収集・保管しておく機能がDHWです。
DWHがあればETLツールは不要ではないか、あるいはデータプレパレーションツールが付帯していればよいのではないか、と聞かれることがありますが、BI・DWHが1システムだった場合、分析対象データを収集・加工する機能まで担わせてしまうことでシステム全体の負荷が高まり、最も大事なデータの深堀り:グラフ・チャートからのドリルダウンなど分析のための操作がサクサク動かないといった事態が生じます。
特に、AI・ビッグデータ分析が2010年代にバズワードとなって注目されましたが、ビッグデータを放り込んでおくデータレイクは用意されているものの、分析のための前処理(変換・加工)には想像以上のスキルと手間がかかることから、肝心な分析のためのデータを整理・整頓しておくところで、ETLツールが見直されるシーンが多くみられます。
このように、収集~保管~表示といった要素を分離して個別最適化しておくことが、データ分析によって有用な情報を得るための快適なシステム基盤をつくる上でのキモと言えるでしょう。
AI:人工知能が第三次ブームとなった2000年代以降、それまで人手で行わざるをえなかったPC上での定型作業を、自動化・ロボット化するRPAが注目されるようになり、馴染みの深いExcelのマクロが、PCのデスクトップ作業全体に拡張するイメージで広まりつつあります。
ETLツールによるデータ収集は、データソースのシステムに直接接続してデータを取得できる必要がありますが、例えばその対象が商用のWEBサービスであるなど、ETLツールが直接接続することができないようなケースがRPAの出番になります。
具体的には、利用しているWEBサービスのデータ提供方法としてAPIなどが提供されておらず、条件指定したCSVファイルのダウンロードなどに限定されている場合などがあります。この条件指定とダウンロード作業をRPAが担い、ダウンロードファイルが特定のフォルダーに保存されたタイミングで、ETLツールのタスクが起動するといったデータフローが考えられます。
データ・マネジメントという観点であれば、ETLツールと組み合わせることで最も効果が高まるのがRPAと見ることもできますし、RPAだけでETLがない場合、RPAのポテンシャルが充分に発揮できないことが起こりえる点には注意が必要でしょう。
最新情報は[動作環境]のページでご確認ください。
各種ODBC 対応データベースについての詳細はお問い合わせください。
サポート対象 | 動作実績あり | |
---|---|---|
データベース | Oracle Database 11g、12c、18c、19c | 8i、9i、10g |
Microsoft SQL Server 2012、2014、2016、2017、2019 | 2000、2005、2008、2008 R2 | |
IBM Db2 for Windows/UNIX V9.7、10.1、10.5、11.1 | V8.x、9.1、9.5 | |
IBM Db2 for i 7.2 | 5、5.4、6.1 | |
MySQL V5.7、8.0 | V5.6.10 ~ | |
PostgreSQL V9.5、9.6、10、11、12 | V9.3、9.4 | |
Amazon RDS(Oracle、SQL Server、MySQL、PostgreSQL) ※1 | ||
DWH | Dr.Sum EA V3.0 SP2、V4.0、V4.0 SP1、V4.1、V4.2、5.0、5.1 | EA V2.5 |
Amazon Redshift | IBM Red Brick Warehouse 5.x/6.x | |
ERP | SAP ERP 6.0、S/4 HANA | R/3 4.6C |
Application | Microsoft Access 2010、2013、2016、2019 | 2000、2002、2003、2007 |
Microsoft Excel ( xlsx, xlsm, xls 形式のファイルをサポートします。) | ||
Salesforce CRM salesforce.com、サイボウズ・kintone | Adobe Marketo Engage | |
その他、動作実績 | その他、IBM DB2 UDB for zOS、HiRDB、Caché、SAP HANA 等の動作実績多数 |
※1 Amazon RDS の対応バージョンは、各データベースエンジンの対応バージョンに従います。
V5.3:2020年6月1日現在の対応状況です。
EBCDIC カナ、EBCDIC 英小文字、EBCDIK(日立)、ASCII、IBM 漢字、富士通JEF、日立KEIS、NEC 漢字「JIPS、JIPS(E)」、JIS、シフトJIS、日本語EUC、JASTEM、Unicode「UTF-8、UCS-2」、中国 GB18030、BIG5、中国 IBM(GB Host)
ここまで読んでいただいた方は、すでにETLツール導入のモチベーションが高まったかもしれませんが、あらためて導入後に期待できる効果をピックアップしました。
情報システムとは、ビジネス≒業務上必要な“情報”を入力・更新し、必要な人が必要な時に必要な“情報”を参照・取得できるようにするためのコンピューターシステム“のはず”です。
ところが、役割分担の多様化や専門化が進むにつれ、主として情報を入力する人たちに最適化されたシステムがどんどん増えていくことで、情報を使う側の立場の人たちは一ヶ所で必要な情報を取得することが困難になっていきます。すでにそうなってしまっている方はもちろん、これからそうなってしまいそうな方もぜひ、シームレスなデータ連携基盤がもたらす効用を洗い出してみてください。
作業時間を一気に減らせることが、いちばん大きな効果でしょう。
『働き方改革』が浸透するなかで、労働時間は減っても作業時間が変わらなければ、品質の低下などに影響が出てきます。
それでは本末転倒ですから、まずはどれだけ時間が減らせるか自分のタスクから洗い出してみましょう。
人手に頼っていた作業がITツールを使うことで機械化・自動化できると同時に、Waha! Transformerで作成したジョブによって標準化されます。極端にいえば「実行ボタンを誰がクリックしてもレポートが更新できる」のです。
また、前述したジョブ設定のHTMLドキュメントは設定仕様書や簡易マニュアルとして共有できます。これにより、前任者から引き継いだものの実際の作業時にやり方がわからないといったトラブルも防げます。
注意点として、自動実行しているジョブが誰もわからないという状況は避けなければなりません。HTMLドキュメントはすべてのジョブごとに作成しておき、引き継ぎの際に漏れが生じないようにすると安心です。
ETLツールについて大まかに解説してきましたが、いざETLツールを導入すると、どのような観点で検討を進めればよいのかイメージできない方もいらっしゃると思います。ここで3つのポイントにまとめましたので、ぜひ参考にしてください。
せっかく導入したのに、結局使わなかったというケースは、よく見られます。ツール導入の目的と目標がなかったり、あっても絵に描いた餅で誰も覚えていないといったケースほど、その確率が高い印象があります。
裏を返せば、すべての利用者が目的と目標に納得し、「これを活用しない手はない!」と高いモチベーションがあるときに導入すれば、成功する確率は高くなります。
このように、業務とプロセスの数だけ目的と目標を明文化しておけば、仮にPoC(Proof of Concept)やスモールスタートで1業務からスタートとしても、対象部門を選ぶ理由が見いだしやすくなりますし、本格的に全社展開となる場合には優先順位付けの理由になります。時間の許す範囲で、広範な部門や業務のフローを整理しておくことをお勧めします。
前項の“目標”を定義するために必要な、定量データを集めましょう。対象システムの数やデータ量の調査はIT部門主導で集めやすいと思いますが、人的工数の調査は改善インパクトが大きくなるであろう現場部門から協力を仰ぐ形で収集していくとよいでしょう。
その前提として、IT部門と現場部門のコミュニケーションが日常的に円滑で、すでにETL導入の効果が見込める部門が顕在化していると理想的です。そのような場合も可能な範囲で複数部門をカバーして、潜在的な課題や問題の発見につなげる活動も見据えておきましょう。
ビジネスでもスポーツでも、成功イメージを持つことはマインドセット面でも大変有効です。導入プロジェクトのコアメンバーだけでもブレーンストーミングの機会を設け、目標としてピックアップした効果以外にどんなメリットが生まれるかなど、ポジティブな意見を出し合ってみましょう。
データマネジメントのプロジェクトにおいては、「入力・集計に必死だったころには見てもいなかったけど、集計後のレポートで異常値が見えてくるようになった」といった声を、複数の組織で聞かれるケースがあります。
「経営者感覚・当事者意識を持て」といわれても無反応だった人たちが、『課題発見能力』が明白に向上するわけです。そんなワクワクする未来がコアメンバーで共有できると、導入の成功を確信できるようになるでしょう。
Q
ETLツールはどのような仕組みですか?
A
組織内外に散在するデータを収集・加工・送出してくれるミドルウェアがETLツールです。
一般的にはプログラミングやスクリプトなどの開発を要するデータ処理ですが、より多くの人が使いこなせるようにGUIで操作できるものが一般的です。
Q
ETLツールはどのくらいの種類がありますか?
A
ミドルウェアとして限定的な機能を持つソフトウェアがETLツールなので、その種類は多くありません。
海外製、日本製といった開発元であったり、有償なのか無償・OSSなのかといったところが比較の軸になります。
Q
ETLツールの導入を考えていますが、どのような点に注目して比較すると良いですか?
A
データ処理のキモである変換・加工機能は、ファイル形式や文字コードなど、利用される国によって要件が大きく変わってくる点に注意が必要です。
海外製/日本製、有償/無償・OSSなどで比較される際も、処理性能×操作性×利便性の3要素を比べてみるのがよいでしょう。
Q
ETLツールを利用するメリットはなんですか?
A
ETLツールを利用するメリットは、財務会計や販売管理、人事給与や生産管理など、組織内外にいくつもある業務アプリケーションのデータを、利用者に見えない裏側で整理・整頓してくれることです。
共有フォルダーにあるExcel定型帳票を日次更新できるものもあり、データ更新作業の機械化・自動化といった観点で導入される企業が増えています。
Q
ETLツールの価格の相場はどのくらいですか?
A
無償・OSSといった低価格帯、500万円程度の中価格帯、2,000万円超の高価格帯に大きく分類できますが、取り扱うデータ量や連携範囲、操作性などに差があるので、体験版などを使って検証した上で、導入・運用における費用対効果を確認することをお勧めします。
Q
ELTツールを使ううえで、どのようなものを選んだら良いですか?
A
ノンプログラミングなGUIベースのプロダクトが多いですが、類似するEAI製品の中にはインターフェースの動作が重くてデータ処理が滞るといったこともあるようなので、処理性能に影響しないソフトウェアを選びましょう。
Q
ETLツールはどれがおすすめですか?
A
処理性能×操作性×利便性というETLツールの3要素に加え、純国産ETLツールの先駆者である Waha! Transformer をお勧めしない理由が見当たりません。
14社の事例から学ぶ!
Waha! Transformer
実践事例集
上田:D要件として「データ連携・共有」「クラウド技術の活用」「DX認定の取得」の3つ、X要件では「全社の意思決定に基づくものであること」「一定以上の生産性向上が見込まれること」の2つを全て満たす必要がありますから、DXに全社的に取り組んでいる企業のみが対象となる税制だと思います。4月時点では計画申請書の内容が公開されておらず、詳細が明らかになるのは5月以降ですが、過去の税制から考えると、比較的いろいろな項目を記載することになるでしょう。申請書作成にあたっての最初のハードルは、D要件の1つであるDX認定取得だと考えています。すでに取得している企業は別として、これからの企業にとってはこの認定取得が必須です。
執筆者情報:
ユニリタ Waha! Transformerチーム
株式会社ユニリタ ITイノベーション部
PM・SEに限らず多様な経験・知見を持ったメンバーが、「データ活用」という情報システム部門の一丁目一番地でお役に立つべく集められました。
社内のデータ活用でお悩みの方は
お気軽にご相談ください。