SQL Server のことなら SQL Quality SQL Server パフォーマンス チューニング、コンサルティング、アドバイス、相談、定期診断、トレーニング

ホーム > 技術情報 > SQL Server 2012 自習書 DWH 関連の新機能

SQL Server 2012 自習書シリーズ (HTML 版)
新機能編 No.3「DWH(データ ウェアハウス)関連の新機能」

松本美穂と松本崇博が執筆した SQL Server 2012 自習書シリーズの「新機能編 No.3 DWH 関連の新機能」の HTML 版です。 日本マイクロソフトさんの Web サイトで Word または PDF 形式でダウンロードできますが、今回、HTML 版として公開する許可をいただきましたので、ここに掲載いたします。[2014年12月26日]

目次へ | 前のページへ | 次のページへ

4.1 DQS(Data Quality Services)による容易なデータ品質の向上

◆ DQS(Data Quality Services)による容易なデータ品質の向上

SQL Server 2012 では、DQSData Quality Services:データ品質サービス)と呼ばれるデータ品質を向上させるためのサービスが提供されました。DQS は、いわゆる「データ クレンジング」(Data Cleansing)や「名寄せ」と呼ばれる処理が可能なサービスで、複数の業務システム(散在したマスター データ)から DWH(データ ウェアハウス)を構築する際に大変役立つ機能です。

普段私たちが利用している業務システムでは、データの入力ミスや、システム上のイレギュラーな処理によるデータの不整合や不一致などが起こり得ます。また、複数の業務システム(マスター データ)が存在する場合には、それぞれのマスター内でデータの格納方法がバラバラである場合があります。たとえば、Aというシステムでは「XXX株式会社」として登録している取引先が、B というシステムでは「XXX(株)」のように省略系で登録されていたりするケースなどがあります。また、あるシステムでは「第一営業部」として登録されている部署名が、別のシステムでは「第1営業部」のように漢字の「」が数字の「1」として登録されてしまっているようなケースもあり得ます。

00070

このようにデータ品質に問題がある場合(同一データが異なる形式で格納されていたり、入力ミスなどで不正なデータが格納されていたりする場合)を解決するための処理が「データ クレンジング」と呼ばれています。クレンジング(Cleansing)は、「洗浄」という意味なので、データ クレンジングは、「データをきれいに洗う」=「データを正しい状態へ整える」という意味で使われています。このようなデータ クレンジングが可能なサービスが DQSData Quality Services)です。

00071

DQS では、次の画面のように、データの修正先を簡単に定義することができるツールが用意されています。

00072

この画面では、間違っているデータマイクロソフト日本株式会社」などの場合に、正しいデータ日本マイクロソフト株式会社」へ修正するようなルールの作成(シノニム:同一値の定義)を行っています。

また、このような名前の修正(変換)だけでなく、文字列の長さが正しいかどうかのチェック(たとえば商品コード5桁かどうかのチェックなど)や、正規表現を利用したデータのチェックなどを行うことも可能です。

00073

このように DQS ツール上で作成したルール品質チェックは、次のように Integration Services の「DQS クレンジング」タスクを利用することで、実際の処理を実行することができます。

00074

目次へ | 前のページへ | 次のページへ

事例1

MPNロゴ


SQLQualityは執筆とセミナーを通じて技術の啓蒙やエンジニアの育成支援も行っています
最新刊
SQL Server 2012 の教科書
SQL Server 2012 の教科書(ソシム)

弊社オリジナル制作の
SQL Server 2012 自習書も
マイクロソフトのサイトで公開中!
ロングセラー
ASP.NET でいってみよう  SQL Server 2000 でいってみよう
ASP.NET でいってみよう
第7刷 16,500 部発行
SQL Server 2000 でいってみよう
第12刷 28,500 部発行


セミナー風景
セミナー風景

弊社執筆の
SQL Server 2012 自習書
マイクロソフトのサイトで公開中
全30冊
ダウンロードはこちら
弊社執筆の
SQL Server 2008 R2 自習書
マイクロソフトのサイトで公開中
全30冊
目次はこちら
松本美穂のコラム
(公開活動などのお知らせ)

第38回: SQL Server 2014 CTP2 の公開
第37回: SQL Server 2014 CTP1 の自習書をご覧ください
第36回: SQL Server 2014 CTP1 のクラスター化列ストア インデックスを試す
第35回: SQL Server 2014 CTP1 のインメモリ OLTP の基本操作を試す
第34回: GeoFlow for Excel 2013 のプレビュー版を試す
第33回:iPad と iPhone からの SQL Server 2012 Reporting Servicesのレポート閲覧
第32回:PASS Summit 2012 参加レポート
第31回:SQL Server 2012 Reporting Services 自習書のお知らせ
第30回:SQL Server 2012(RTM 版)の新機能 自習書をご覧ください
第29回:書籍「SQL Server 2012の教科書 開発編」のお知らせ
第26回:SQL Server 2012 の Power View 機能のご紹介
第25回:SQL Server 2012 の Data Quality Services
第24回:SQL Server 2012 自習書のご案内と初セミナー報告
第23回:Denali CTP1 が公開されました
第22回 チューニングに王道あらず
第21回 Microsoft TechEd 2010 終了しました
第20回 Microsoft TechEd Japan 2010 今年も登壇します
第19回 SQL Server 2008 R2 RTM の 日本語版が公開されました
第18回 「SQL Azure 入門」自習書のご案内
第17回 SQL Server 2008 自習書の追加ドキュメントのお知らせ
第16回 SQL Server 2008 R2 自習書とプレビュー セミナーのお知らせ
第15回 SQL Server 2008 R2 Reporting Services と新刊のお知らせ
第14回 TechEd 2009 のご報告と SQL Server 2008 R2 について
第13回 SQL Server 2008 R2 の CTP 版が公開されました
第12回 MVP Summit 2009 in Seattle へ参加

技術コミュニティでも活動中

Microsoft MVP for SQL Server

松本崇博 Blog(SQL Server Tips)
松本美穂ブログ(SQL Serverノート)