Amazon EMR（Elastic MapReduce）

2020年11月30日2021年10月31日

■Amazon EMR の特徴

EMR は Elastic MapReduce の略です。
ビッグデータフレームワーク (Apache Hadoop や Apache Spark など) の実行を簡素化して、大量のデータを処理および分析できるサービスです。
IoT などの大量のデータセットを処理および分析できます。
カスタムポリシーによる自動スケーリングを使用できます。
Apache Spark、Apache Hive、Apache HBase、Apache Flink、Presto などのオープンソースツールと、Amazon EC2 や Amazon S3 を組み合わせて、大規模なビッグデータを処理および分析できます。

※MapReduce とは米グーグル（Google）が開発した、大規模なデータを効率的に分散処理するためのプログラミングモデル。計算過程を“Map”と“Reduce”と呼ばれる二つのステップに分けて構成する。

※Reduce とは減らす、下げるという意味です。

■Amazon EMR のユースケース

※ETL は Extract/Transform/Load の略で、Extract（データを抽出）／Transform（抽出データを変換・加工）／Load（データをロード）という工程を表しています。

EMR と Apache Hive と DynameDB でデータを分析できる

EMR と Apache と DynamoDB の組み合わせでデータを分析することができます。

DynamoDB にはデータを保存します。