■Amazon EMR の特徴
- EMR は Elastic MapReduce の略です。
- ビッグデータフレームワーク (Apache Hadoop や Apache Spark など) の実行を簡素化して、大量のデータを処理および分析できるサービスです。
- IoT などの大量のデータセットを処理および分析できます。
- カスタムポリシーによる自動スケーリングを使用できます。
- Apache Spark、Apache Hive、Apache HBase、Apache Flink、Presto などのオープンソースツールと、Amazon EC2 や Amazon S3 を組み合わせて、大規模なビッグデータを処理および分析できます。
※MapReduce とは米グーグル(Google)が開発した、大規模なデータを効率的に分散処理するためのプログラミングモデル。計算過程を“Map”と“Reduce”と呼ばれる二つのステップに分けて構成する。
http://e-words.jp/w/MapReduce.html
※Reduce とは減らす、下げるという意味です。
■Amazon EMR のユースケース
- リアルタイムストリーム分析
- ETL(抽出、変換、読み込み)
- 機械学習(マシンラーニング)
- クリックストリーム分析
- ゲノミクス
- リアルタイムで大量のデータを分析することに特化しているイメージ
※ETL は Extract/Transform/Load の略で、Extract(データを抽出)/Transform(抽出データを変換・加工)/Load(データをロード)という工程を表しています。
EMR と Apache Hive と DynameDB でデータを分析できる
EMR と Apache と DynamoDB の組み合わせでデータを分析することができます。
DynamoDB にはデータを保存します。
コメント