【AWS】Glue Job のロールとポリシーの設計

2022年12月17日2022年12月24日

AWS Glue Job のロールとポリシーの設計について解説します。

以前、以下の記事を作成したので参考に指定ください。

【AWS】RDSのSnapshotをS3バケットにエクスポートする方法

AWSインフラ研究所

【AWS】RDSのSnapshotをS3バケットにエクスポートする方法

https://go-journey.club/archives/17305

Lambda から RDS の Snapshot を S3 バケットにエクスポートする方法について解説します。特に構成とサービスと適用するIAMロールと権限について解説します。 RDS の Snapshot を S3 バケットにエクスポートできます。しかもエクスポート作業はバックグラウンドで実行されるため、RDS インスタンスのパフォーマンスには影響しません。スナップショットをエクスポートすると、RDS はスナップショットからデータを抽出して S3 バケットに保存します。手動でもできますが Lambda と EventBridge を利用して定期的に自動化して実行で...

【AWS】Glue Crawler のロールとポリシーの設計

AWSインフラ研究所

【AWS】Glue Crawler のロールとポリシーの設計

https://go-journey.club/archives/17310

AWS Glue Crawler のロールとポリシーの設計について解説します。【AWS】RDSのSnapshotをS3バケットにエクスポートする方法【AWS】Glue Job のロールとポリシーの設計そもそも Glue 関連のサービスで IAM ロールの設定と IAM ポリシーの設定をしなければいけないものは何か？Glue 関連のサービスと言ってもたくさんありますが、そもそもGlue 関連のサービスで IAM ロールの設定と IAM ポリシーの設定をしなければいけないものは何でしょうか？考え方ですが、IAM ロールは Glue ジョブや Glue Crawler のように...

そもそも Glue 関連のサービスで IAM ロールの設定と IAM ポリシーの設定をしなければいけないものは何か？

Glue 関連のサービスと言ってもたくさんありますが、そもそもGlue 関連のサービスで IAM ロールの設定と IAM ポリシーの設定をしなければいけないものは何でしょうか？

考え方ですが、IAM ロールは Glue ジョブや Glue Crawler のように S3 や RDS や Redshift など他の AWS リソースへアクセスする可能性があるサービスに設定します。（設定できます）

一方で、Glue データカタログなどのテーブル情報などのメタデータを保存するようなサービスには設定できません。（保存するだけで自分からは他にサービスに対してアクションすることがないから）

例えば、その他に IAM ロールを指定可能な Glue 関連サービスとしては以下のようなものがあります。

■Glue Interactive Session

Glue Studio からジョブ作成時に指定可能な Jyptter Notebook を利用したインタラクティブな開発ノートブック

■Glue DataBrew

Project
Job (ProfileJob/RecipeJob)

■参考サイト

AWS Glue インタラクティブセッションの概要

https://docs.aws.amazon.com/ja_jp/glue/latest/dg/interactive-sessions-overview.html

Creating and using AWS Glue DataBrew projects

https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/projects.html

Creating, running, and scheduling AWS Glue DataBrew jobs

https://docs.aws.amazon.com/ja_jp/databrew/latest/dg/jobs.html

AWS Glue 全体の構成図

最初に AWS Glue の全体の構成図です。

実際にデータソースからデータを抽出しターゲットに出力するのがジョブの役割です。

Glue Job の処理の流れ

Glue Job の処理の流れです。

ジョブは AWS 管理画面から実行することも出来ますが、下図のようにトリガーにてジョブの実行タイミングを設定することも出来ます。

ジョブはデータカタログのメタデータを元にデータソースからデータを抽出します。

ジョブはサーバーレスエンジンにて実行されます。

ETL 処理を実行しターゲットに出力します。

Glue Job とは

Glue Job の構成図と設計

以下が構成図です。

Glue Job（data-lake-test-job）に IAM ロール（data-lake-test-job-role）を割り当てます。

設計

以下のように設計します。

Glue Job（data-lake-test-job）を作成する。
Glue Job（data-lake-test-job）は Glue Data Catalog（data-lake-test-data-catalog）のメタデータを参照する。
Glue Job（data-lake-test-job）に IAM ロール（data-lake-test-job-role）を割り当てる。
データソースは data-lake-snapshot-rds-test-s3 で、ターゲットは S3バケット（data-lake-test-target-s3）にする。

IAMロール、IAMポリシーの作成

具体的に IAM ロール、IAM ポリシーを作成します。

■信頼ポリシー

{
  “Version”: “2012-10-17”,
  “Statement”: [
    {
      “Effect”: “Allow”,
      “Principal”: {
        “Service”: “glue.amazonaws.com”
      },
      “Action”: “sts:AssumeRole”
    }
  ]
}

■AWSGlueServiceRole（マネジメントポリシー）

{
    “Version”: “2012-10-17”,
    “Statement”: [
        {
            “Effect”: “Allow”,
            “Action”: [
                “glue:*”,
                “s3:GetBucketLocation”,
                “s3:ListBucket”,
                “s3:ListAllMyBuckets”,
                “s3:GetBucketAcl”,
                “ec2:DescribeVpcEndpoints”,
                “ec2:DescribeRouteTables”,
                “ec2:CreateNetworkInterface”,
                “ec2:DeleteNetworkInterface”,
                “ec2:DescribeNetworkInterfaces”,
                “ec2:DescribeSecurityGroups”,
                “ec2:DescribeSubnets”,
                “ec2:DescribeVpcAttribute”,
                “iam:ListRolePolicies”,
                “iam:GetRole”,
                “iam:GetRolePolicy”,
                “cloudwatch:PutMetricData”
            ],
            “Resource”: [
                “*”
            ]
        },
        {
            “Effect”: “Allow”,
            “Action”: [
                “s3:CreateBucket”
            ],
            “Resource”: [
                “arn:aws:s3:::aws-glue-*”
            ]
        },
        {
            “Effect”: “Allow”,
            “Action”: [
                “s3:GetObject”,
                “s3:PutObject”,
                “s3:DeleteObject”
            ],
            “Resource”: [
                “arn:aws:s3:::aws-glue-*/*”,
                “arn:aws:s3:::*/*aws-glue-*/*”
            ]
        },
        {
            “Effect”: “Allow”,
            “Action”: [
                “s3:GetObject”
            ],
            “Resource”: [
                “arn:aws:s3:::crawler-public*”,
                “arn:aws:s3:::aws-glue-*”
            ]
        },
        {
            “Effect”: “Allow”,
            “Action”: [
                “logs:CreateLogGroup”,
                “logs:CreateLogStream”,
                “logs:PutLogEvents”
            ],
            “Resource”: [
                “arn:aws:logs:*:*:/aws-glue/*”
            ]
        },
        {
            “Effect”: “Allow”,
            “Action”: [
                “ec2:CreateTags”,
                “ec2:DeleteTags”
            ],
            “Condition”: {
                “ForAllValues:StringEquals”: {
                    “aws:TagKeys”: [
                        “aws-glue-service-resource”
                    ]
                }
            },
            “Resource”: [
                “arn:aws:ec2:*:*:network-interface/*”,
                “arn:aws:ec2:*:*:security-group/*”,
                “arn:aws:ec2:*:*:instance/*”
            ]
        }
    ]
}

■data-lake-test-job-role-s3-policy

{
   “Version”: “2012-10-17”,
    “Statement”: [
        {
          “Effect”: “Allow”,
          “Action”: [
              “s3:GetObject”,
              “s3:PutObject”,
              “s3:List*”
          ],
          “Resource”: [
              “arn:aws:s3:::data-lake-snapshot-rds-test-s3/*”,
              “arn:aws:s3::data-lake-test-target-s3/*”
          ]
        }
    ]
}

ジョブはデータソースとターゲット両方の S3 バケットにアクセスします。

■data-lake-test-job-role-kms-policy

{
   “Version”: “2012-10-17”,
    “Statement”: [
        {
          “Effect”: “Allow”,
          “Action”: [
              “kms:Decrypt”
          ],
          “Resource”: [
              “arn:aws:kms:ap-northeast-1:111111111111:key/xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxx”
          ]
        }
    ]
}

もし RDS のスナップショットが KMS キーで暗号化されている場合は、複合する為に “kms:Decrypt” の権限が必要になります。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

サイト管理人

コメントする

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。