Amazon Athena

2021年5月22日2026年4月1日

Amazon Athena の特徴

Amazon Athena は、Amazon S3 に置いたデータを標準SQLでそのまま分析できるサーバーレスのクエリサービスです。データを事前にデータベースへロードしなくても、S3 上のCSV、JSON、Parquet、ORC などに対して直接クエリできます。Athena はインフラ管理不要で、自動スケールし、結果を並列実行で返します。

Athena は S3版のSQL分析ツールです。たとえば、ALBログ、CloudTrailログ、VPC Flow Logs、アプリの CSV/JSON ログ、AWS Cost and Usage Report のようなファイルを S3 に置いておき、必要なときだけ SQL で検索・集計します。CUR を Athena で分析する公式ガイドもあります。

Athena のコストを下げるには

Athena は保存データ量ではなく、クエリ時に実際にスキャンした量で効いてきます。だから、同じ内容のデータでも保存形式でコストがかなり変わります。たとえば、巨大な CSV ファイルをそのまま読むよりも、以下の方法が安くて速くなります。Parquet のような列指向形式だと、必要列だけ読めるため、全列スキャンを減らせます。

GZIP などで圧縮する
Parquet や ORC（列指向フォーマット）に変換する
年/月/日やリージョンなどでパーティションを切る
SELECT * を避けて必要列だけ読む

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

サイト管理人

コメントする

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。

Amazon Athena

Amazon Athena の特徴

Athena のコストを下げるには

この記事を書いた人

関連記事

コメント

コメントする