目次
Amazon Athena の特徴
Amazon Athena は、Amazon S3 に置いたデータを標準SQLでそのまま分析できるサーバーレスのクエリサービスです。データを事前にデータベースへロードしなくても、S3 上のCSV、JSON、Parquet、ORC などに対して直接クエリできます。Athena はインフラ管理不要で、自動スケールし、結果を並列実行で返します。
Athena は S3版のSQL分析ツールです。たとえば、ALBログ、CloudTrailログ、VPC Flow Logs、アプリの CSV/JSON ログ、AWS Cost and Usage Report のようなファイルを S3 に置いておき、必要なときだけ SQL で検索・集計します。CUR を Athena で分析する公式ガイドもあります。
Athena のコストを下げるには
Athena は保存データ量ではなく、クエリ時に実際にスキャンした量で効いてきます。だから、同じ内容のデータでも保存形式でコストがかなり変わります。たとえば、巨大な CSV ファイルをそのまま読むよりも、以下の方法が安くて速くなります。Parquet のような列指向形式だと、必要列だけ読めるため、全列スキャンを減らせます。
- GZIP などで圧縮する
- Parquet や ORC(列指向フォーマット)に変換する
- 年/月/日 やリージョンなどでパーティションを切る
SELECT *を避けて必要列だけ読む
コメント