[AWS SAA取得向け] ~Data Pipeline~

[AWS SAA取得向け] ~Data Pipeline~

AWSの資格の一つであるSAAで出題されるであろうData Pipelineについて記載しています。

Dynamo DB からある期日移行の古いデータをS3に転送する場合、AWS DataPipelineを使用することで、データ駆動型のワークフローを定義できる。

AWS Data Pipelineは、データの移動と変換を自動化するために使用できるサービスです。
 Data Pipelineを使用するとデータ駆動型のワークロードを定義することができます。このデータ駆動型とは、データがある状態になったことをもって、すぐに対のアクティビティを実行することができるものです。タスクがポーリングによって確認し、次のタスクを駆動するような駆動方法ではありません。
 こうした処理方式を一般にはワークフローといいます。この方が設計はシンプルになります。

SWF(Simple Workflow Service)もワークフローを定義できるものですが、AWS Data Pipelineはデータに関するワークフローを簡易に定義できる特徴があります。下の図はDynamoDBからS3の処理例ですが、Data PipelineはAWSのみならず、オンプレミスも含めて、様々なデータソース間でデータ処理を行うことができます。

データ駆動型のワークフローでは、データに関する準備状況のチェックでOKになれば、次のアクティビティを実行します。DynamoDBなどでの準備が確実に行われたことをもってS#にデータをコピーするといったことを、簡単に実行することができます。