Amazon Athena

Amazon Athena の特徴

Amazon Athena は、Amazon S3 に置いたデータを標準SQLでそのまま分析できるサーバーレスのクエリサービスです。データを事前にデータベースへロードしなくても、S3 上のCSV、JSON、Parquet、ORC などに対して直接クエリできます。Athena はインフラ管理不要で、自動スケールし、結果を並列実行で返します。

Athena は S3版のSQL分析ツールです。たとえば、ALBログ、CloudTrailログ、VPC Flow Logs、アプリの CSV/JSON ログ、AWS Cost and Usage Report のようなファイルを S3 に置いておき、必要なときだけ SQL で検索・集計します。CUR を Athena で分析する公式ガイドもあります。

Athena のコストを下げるには

Athena は保存データ量ではなく、クエリ時に実際にスキャンした量で効いてきます。だから、同じ内容のデータでも保存形式でコストがかなり変わります。たとえば、巨大な CSV ファイルをそのまま読むよりも、以下の方法が安くて速くなります。Parquet のような列指向形式だと、必要列だけ読めるため、全列スキャンを減らせます。

  • GZIP などで圧縮する
  • Parquet や ORC(列指向フォーマット)に変換する
  • 年/月/日 やリージョンなどでパーティションを切る
  • SELECT * を避けて必要列だけ読む
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

AlphaOmega Captcha Classica  –  Enter Security Code
     
 

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください