Glue Crawler With Different DataLake#

CSV#

csv_example_no_partition.py

# -*- coding: utf-8 -*-

import io
import uuid
import random

import polars as pl
from faker import Faker

from better_glue import Database, Crawler
from settings import bsm, aws_console, s3dir_db, database_name, iam_role

table_name = "csv_example_no_partition"
s3dir_tb = s3dir_db.joinpath(table_name).to_dir()
crawler_name = f"{database_name}__{table_name}"
fake = Faker()

database_url = aws_console.glue.get_database(database_or_arn=database_name)
table_url = aws_console.glue.get_table(table_or_arn=table_name, database=database_name)
crawler_url = aws_console.glue.get_crawler(name_or_arn=crawler_name)
print(f"table s3dir = {s3dir_tb.console_url}")
print(f"{database_url = }")
print(f"{table_url = }")
print(f"{crawler_url = }")


def prepare_data():
    print("prepare data ...")
    s3dir_tb.delete()
    n_records = 1000
    df = pl.DataFrame(
        {
            "id": range(1, 1 + n_records),
            "name": [fake.name() for _ in range(n_records)],
            "create_time": [
                fake.date_time().replace(year=random.randint(2001, 2010))
                for _ in range(n_records)
            ],
        }
    ).with_columns(pl.col("create_time").dt.year().alias("year"))
    for _, sub_df in df.group_by("year"):
        sub_df = sub_df.drop("year")
        s3path = s3dir_tb.joinpath(f"{uuid.uuid4()}.csv")
        buffer = io.BytesIO()
        sub_df.write_csv(buffer)
        s3path.write_bytes(buffer.getvalue(), bsm=bsm, content_type="text/csv")


def create_database():
    print("create database ...")
    db = Database.get(glue_client=bsm.glue_client, name=database_name)
    if db is None:
        bsm.glue_client.create_database(DatabaseInput=dict(Name=database_name))


def create_crawler():
    print("create crawler ...")
    crawler = Crawler.get(
        glue_client=bsm.glue_client,
        name=crawler_name,
    )
    if crawler is not None:
        bsm.glue_client.delete_crawler(Name=crawler_name)
    crawler = bsm.glue_client.create_crawler(
        Name=crawler_name,
        Role=iam_role,
        DatabaseName=database_name,
        Targets=dict(
            S3Targets=[
                dict(
                    Path=s3dir_tb.uri,
                ),
            ],
        ),
        RecrawlPolicy=dict(
            RecrawlBehavior="CRAWL_EVERYTHING",
        ),
    )


def run_crawler():
    print("run crawler ...")
    bsm.glue_client.start_crawler(Name=crawler_name)


# prepare_data()
# create_database()
# create_crawler()
run_crawler()

csv_example_has_partition.py

# -*- coding: utf-8 -*-

import io
import uuid
import random

import polars as pl
from faker import Faker

from better_glue import Database, Crawler
from settings import bsm, aws_console, s3dir_db, database_name, iam_role

table_name = "csv_example_has_partition"
s3dir_tb = s3dir_db.joinpath(table_name).to_dir()
crawler_name = f"{database_name}__{table_name}"
fake = Faker()

database_url = aws_console.glue.get_database(database_or_arn=database_name)
table_url = aws_console.glue.get_table(table_or_arn=table_name, database=database_name)
crawler_url = aws_console.glue.get_crawler(name_or_arn=crawler_name)
print(f"table s3dir = {s3dir_tb.console_url}")
print(f"{database_url = }")
print(f"{table_url = }")
print(f"{crawler_url = }")


def prepare_data():
    print("prepare data ...")
    s3dir_tb.delete()
    n_records = 1000
    df = pl.DataFrame(
        {
            "id": range(1, 1 + n_records),
            "name": [fake.name() for _ in range(n_records)],
            "create_time": [
                fake.date_time().replace(year=random.randint(2001, 2010))
                for _ in range(n_records)
            ],
        }
    ).with_columns(pl.col("create_time").dt.year().alias("year"))
    for (year,), sub_df in df.group_by("year"):
        sub_df = sub_df.drop("year")
        s3path = s3dir_tb.joinpath(f"year={year}", f"{uuid.uuid4()}.csv")
        buffer = io.BytesIO()
        sub_df.write_csv(buffer)
        s3path.write_bytes(buffer.getvalue(), bsm=bsm, content_type="text/csv")


def create_database():
    print("create database ...")
    db = Database.get(glue_client=bsm.glue_client, name=database_name)
    if db is None:
        bsm.glue_client.create_database(DatabaseInput=dict(Name=database_name))


def create_crawler():
    print("create crawler ...")
    crawler = Crawler.get(
        glue_client=bsm.glue_client,
        name=crawler_name,
    )
    if crawler is not None:
        bsm.glue_client.delete_crawler(Name=crawler_name)
    crawler = bsm.glue_client.create_crawler(
        Name=crawler_name,
        Role=iam_role,
        DatabaseName=database_name,
        Targets=dict(
            S3Targets=[
                dict(
                    Path=s3dir_tb.uri,
                ),
            ],
        ),
        RecrawlPolicy=dict(
            RecrawlBehavior="CRAWL_EVERYTHING",
        ),
    )


def run_crawler():
    print("run crawler ...")
    bsm.glue_client.start_crawler(Name=crawler_name)


# prepare_data()
# create_database()
# create_crawler()
# run_crawler()

Parquet#

parquet_example_no_partition.py

# -*- coding: utf-8 -*-

import io
import uuid
import random

import polars as pl
from faker import Faker

from better_glue import Database, Crawler
from settings import bsm, aws_console, s3dir_db, database_name, iam_role

table_name = "parquet_example_no_partition"
s3dir_tb = s3dir_db.joinpath(table_name).to_dir()
crawler_name = f"{database_name}__{table_name}"
fake = Faker()

database_url = aws_console.glue.get_database(database_or_arn=database_name)
table_url = aws_console.glue.get_table(table_or_arn=table_name, database=database_name)
crawler_url = aws_console.glue.get_crawler(name_or_arn=crawler_name)
print(f"table s3dir = {s3dir_tb.console_url}")
print(f"{database_url = }")
print(f"{table_url = }")
print(f"{crawler_url = }")


def prepare_data():
    print("prepare data ...")
    s3dir_tb.delete()
    n_records = 1000
    df = pl.DataFrame(
        {
            "id": range(1, 1 + n_records),
            "name": [fake.name() for _ in range(n_records)],
            "create_time": [
                fake.date_time().replace(year=random.randint(2001, 2010))
                for _ in range(n_records)
            ],
        }
    ).with_columns(pl.col("create_time").dt.year().alias("year"))
    for _, sub_df in df.group_by("year"):
        sub_df = sub_df.drop("year")
        s3path = s3dir_tb.joinpath(f"{uuid.uuid4()}.snappy.parquet")
        buffer = io.BytesIO()
        sub_df.write_parquet(buffer, compression="snappy")
        s3path.write_bytes(
            buffer.getvalue(), bsm=bsm, content_type="application/x-parquet"
        )


def create_database():
    print("create database ...")
    db = Database.get(glue_client=bsm.glue_client, name=database_name)
    if db is None:
        bsm.glue_client.create_database(DatabaseInput=dict(Name=database_name))


def create_crawler():
    print("create crawler ...")
    crawler = Crawler.get(
        glue_client=bsm.glue_client,
        name=crawler_name,
    )
    if crawler is not None:
        bsm.glue_client.delete_crawler(Name=crawler_name)
    crawler = bsm.glue_client.create_crawler(
        Name=crawler_name,
        Role=iam_role,
        DatabaseName=database_name,
        Targets=dict(
            S3Targets=[
                dict(
                    Path=s3dir_tb.uri,
                ),
            ],
        ),
        RecrawlPolicy=dict(
            RecrawlBehavior="CRAWL_EVERYTHING",
        ),
    )


def run_crawler():
    print("run crawler ...")
    bsm.glue_client.start_crawler(Name=crawler_name)


# prepare_data()
# create_database()
# create_crawler()
# run_crawler()

parquet_example_has_partition.py

# -*- coding: utf-8 -*-

import io
import uuid
import random

import polars as pl
from faker import Faker

from better_glue import Database, Crawler
from settings import bsm, aws_console, s3dir_db, database_name, iam_role

table_name = "parquet_example_has_partition"
s3dir_tb = s3dir_db.joinpath(table_name).to_dir()
crawler_name = f"{database_name}__{table_name}"
fake = Faker()

database_url = aws_console.glue.get_database(database_or_arn=database_name)
table_url = aws_console.glue.get_table(table_or_arn=table_name, database=database_name)
crawler_url = aws_console.glue.get_crawler(name_or_arn=crawler_name)
print(f"table s3dir = {s3dir_tb.console_url}")
print(f"{database_url = }")
print(f"{table_url = }")
print(f"{crawler_url = }")


def prepare_data():
    print("prepare data ...")
    s3dir_tb.delete()
    n_records = 1000
    df = pl.DataFrame(
        {
            "id": range(1, 1 + n_records),
            "name": [fake.name() for _ in range(n_records)],
            "create_time": [
                fake.date_time().replace(year=random.randint(2001, 2010))
                for _ in range(n_records)
            ],
        }
    ).with_columns(pl.col("create_time").dt.year().alias("year"))
    for (year,), sub_df in df.group_by("year"):
        sub_df = sub_df.drop("year")
        s3path = s3dir_tb.joinpath(f"year={year}", f"{uuid.uuid4()}.snappy_parquet")
        buffer = io.BytesIO()
        sub_df.write_parquet(buffer, compression="snappy")
        s3path.write_bytes(
            buffer.getvalue(), bsm=bsm, content_type="application/x-parquet"
        )


def create_database():
    print("create database ...")
    db = Database.get(glue_client=bsm.glue_client, name=database_name)
    if db is None:
        bsm.glue_client.create_database(DatabaseInput=dict(Name=database_name))


def create_crawler():
    print("create crawler ...")
    crawler = Crawler.get(
        glue_client=bsm.glue_client,
        name=crawler_name,
    )
    if crawler is not None:
        bsm.glue_client.delete_crawler(Name=crawler_name)
    crawler = bsm.glue_client.create_crawler(
        Name=crawler_name,
        Role=iam_role,
        DatabaseName=database_name,
        Targets=dict(
            S3Targets=[
                dict(
                    Path=s3dir_tb.uri,
                ),
            ],
        ),
        RecrawlPolicy=dict(
            RecrawlBehavior="CRAWL_EVERYTHING",
        ),
    )


def run_crawler():
    print("run crawler ...")
    bsm.glue_client.start_crawler(Name=crawler_name)


# prepare_data()
# create_database()
# create_crawler()
# run_crawler()

Delta Lake#

DeltaLake 社区有一个非常好用的 Python 库 delta-rs, 它是 DeltaLake 的 Rust 原生实现的 Python binding. 它是基于 DeltaLake 3.X 版本的. 我非常喜欢用这个库来将数据写入到 DeltaLake 中.

但我在尝试用 Glue Crawler 来自动从 DeltaLake 的 S3 Location 生成 Glue Table 时遇到了一个问题, 我尝试了所有参数的排列组合, 但 Glue Crawler 依然无法成功生成 Glue Table. 后来经过一天的 Debug, 我找到了这篇官方 RePost, 里面明确提到了 Glue Crawler 的 DeltaLake 是基于 1.0 的, 它无法识别我用 3.X 版本写入的数据. 所以目前 Glue Crawler 是无法为我的 S3 folder 自动生成 Glue Table 的.

结论就是, 我只能为我的 DeltaLake 手动创建 Glue Table 了. 但是 Glue Table 的参数众多, 我不知道如何设置. 于是我想到了一个办法. 我根据 Introducing native Delta Lake table support with AWS Glue crawlers 这篇博文, 成功用 Crawler 生成了一个 DeltaLake 1.0 的 Glue Table. 这里除了 Schema 的部分, 其实都是 DeltaLake Table 的标准配置. 那么我就可以用纯 Parquet 的 DataLake 让 Crawler 创建一个 Table, 然后查看里面 Partition 的设置, 然后对这个 1.0 的 Glue Table 进行一些 Schema 和 Partition 的修改, 就能得到一个 DeltaLake 3.X 的 Glue Table 了.

这种方式我测试过了, 在有 Upsert 的情况下依然可以查询到最新的数据.

succeeded_cralwer_generated_delta_lake_table_without_partition.py

import datetime

dct = {
    "Table": {
        "Name": "sample_delta_table",
        "DatabaseName": "glue_crawler_test",
        "Description": "",
        "CreateTime": datetime.datetime(2024, 8, 30, 9, 46, 25, tzinfo=tzlocal()),
        "UpdateTime": datetime.datetime(2024, 8, 30, 9, 51, 19, tzinfo=tzlocal()),
        "Retention": 0,
        "StorageDescriptor": {
            "Columns": [
                {"Name": "id", "Type": "bigint", "Comment": ""},
                {"Name": "name", "Type": "string", "Comment": ""},
                {"Name": "create_time", "Type": "timestamp", "Comment": ""},
            ],
            "Location": "s3://bmt-app-dev-us-east-1-data/projects/parquet_dynamodb/example/staging/sample_delta_table/",
            "AdditionalLocations": [],
            "InputFormat": "org.apache.hadoop.mapred.SequenceFileInputFormat",
            "OutputFormat": "org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat",
            "Compressed": False,
            "NumberOfBuckets": -1,
            "SerdeInfo": {
                "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe",
                "Parameters": {
                    "serialization.format": "1",
                    "path": "s3://bmt-app-dev-us-east-1-data/projects/learn_aws/glue_crawler/databases/glue_crawler_test/delta_example_has_partition/",
                },
            },
            "BucketColumns": [],
            "SortColumns": [],
            "Parameters": {
                "UPDATED_BY_CRAWLER": "sample_delta_table",
                "EXTERNAL": "true",
                "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
                "CrawlerSchemaSerializerVersion": "1.0",
                "CrawlerSchemaDeserializerVersion": "1.0",
                "spark.sql.partitionProvider": "catalog",
                "classification": "delta",
                "spark.sql.sources.schema.numParts": "1",
                "spark.sql.sources.provider": "delta",
                "delta.lastUpdateVersion": "6",
                "delta.lastCommitTimestamp": "1653462383292",
                "table_type": "delta",
            },
            "StoredAsSubDirectories": False,
        },
        "PartitionKeys": [],
        "TableType": "EXTERNAL_TABLE",
        "Parameters": {
            "UPDATED_BY_CRAWLER": "sample_delta_table",
            "EXTERNAL": "true",
            "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
            "CrawlerSchemaSerializerVersion": "1.0",
            "CrawlerSchemaDeserializerVersion": "1.0",
            "spark.sql.partitionProvider": "catalog",
            "classification": "delta",
            "spark.sql.sources.schema.numParts": "1",
            "spark.sql.sources.provider": "delta",
            "delta.lastUpdateVersion": "6",
            "delta.lastCommitTimestamp": "1653462383292",
            "table_type": "delta",
        },
        "CreatedBy": "arn:aws:sts::878625312159:assumed-role/all-services-admin-role/AWS-Crawler",
        "IsRegisteredWithLakeFormation": False,
        "CatalogId": "878625312159",
        "VersionId": "2",
    },
}

succeeded_cralwer_generated_parquet_table_partition_details.py

import datetime

dct = {
    "Table": {
        "Name": "sample_delta_table",
        "DatabaseName": "glue_crawler_test",
        "Description": "",
        "CreateTime": datetime.datetime(2024, 8, 30, 9, 46, 25, tzinfo=tzlocal()),
        "UpdateTime": datetime.datetime(2024, 8, 30, 9, 51, 19, tzinfo=tzlocal()),
        "Retention": 0,
        "StorageDescriptor": {
            "Columns": [
                {"Name": "id", "Type": "bigint", "Comment": ""},
                {"Name": "name", "Type": "string", "Comment": ""},
                {"Name": "create_time", "Type": "timestamp", "Comment": ""},
            ],
            "Location": "s3://bmt-app-dev-us-east-1-data/projects/parquet_dynamodb/example/staging/sample_delta_table/",
            "AdditionalLocations": [],
            "InputFormat": "org.apache.hadoop.mapred.SequenceFileInputFormat",
            "OutputFormat": "org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat",
            "Compressed": False,
            "NumberOfBuckets": -1,
            "SerdeInfo": {
                "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe",
                "Parameters": {
                    "serialization.format": "1",
                    "path": "s3://bmt-app-dev-us-east-1-data/projects/learn_aws/glue_crawler/databases/glue_crawler_test/delta_example_has_partition/",
                },
            },
            "BucketColumns": [],
            "SortColumns": [],
            "Parameters": {
                "UPDATED_BY_CRAWLER": "sample_delta_table",
                "EXTERNAL": "true",
                "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
                "CrawlerSchemaSerializerVersion": "1.0",
                "CrawlerSchemaDeserializerVersion": "1.0",
                "spark.sql.partitionProvider": "catalog",
                "classification": "delta",
                "spark.sql.sources.schema.numParts": "1",
                "spark.sql.sources.provider": "delta",
                "delta.lastUpdateVersion": "6",
                "delta.lastCommitTimestamp": "1653462383292",
                "table_type": "delta",
            },
            "StoredAsSubDirectories": False,
        },
        "PartitionKeys": [],
        "TableType": "EXTERNAL_TABLE",
        "Parameters": {
            "UPDATED_BY_CRAWLER": "sample_delta_table",
            "EXTERNAL": "true",
            "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
            "CrawlerSchemaSerializerVersion": "1.0",
            "CrawlerSchemaDeserializerVersion": "1.0",
            "spark.sql.partitionProvider": "catalog",
            "classification": "delta",
            "spark.sql.sources.schema.numParts": "1",
            "spark.sql.sources.provider": "delta",
            "delta.lastUpdateVersion": "6",
            "delta.lastCommitTimestamp": "1653462383292",
            "table_type": "delta",
        },
        "CreatedBy": "arn:aws:sts::878625312159:assumed-role/all-services-admin-role/AWS-Crawler",
        "IsRegisteredWithLakeFormation": False,
        "CatalogId": "878625312159",
        "VersionId": "2",
    },
}

succeeded_cralwer_generated_parquet_table_with_partition.py

import datetime

dct = {
    "Table": {
        "Name": "sample_delta_table",
        "DatabaseName": "glue_crawler_test",
        "Description": "",
        "CreateTime": datetime.datetime(2024, 8, 30, 9, 46, 25, tzinfo=tzlocal()),
        "UpdateTime": datetime.datetime(2024, 8, 30, 9, 51, 19, tzinfo=tzlocal()),
        "Retention": 0,
        "StorageDescriptor": {
            "Columns": [
                {"Name": "id", "Type": "bigint", "Comment": ""},
                {"Name": "name", "Type": "string", "Comment": ""},
                {"Name": "create_time", "Type": "timestamp", "Comment": ""},
            ],
            "Location": "s3://bmt-app-dev-us-east-1-data/projects/parquet_dynamodb/example/staging/sample_delta_table/",
            "AdditionalLocations": [],
            "InputFormat": "org.apache.hadoop.mapred.SequenceFileInputFormat",
            "OutputFormat": "org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat",
            "Compressed": False,
            "NumberOfBuckets": -1,
            "SerdeInfo": {
                "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe",
                "Parameters": {
                    "serialization.format": "1",
                    "path": "s3://bmt-app-dev-us-east-1-data/projects/learn_aws/glue_crawler/databases/glue_crawler_test/delta_example_has_partition/",
                },
            },
            "BucketColumns": [],
            "SortColumns": [],
            "Parameters": {
                "UPDATED_BY_CRAWLER": "sample_delta_table",
                "EXTERNAL": "true",
                "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
                "CrawlerSchemaSerializerVersion": "1.0",
                "CrawlerSchemaDeserializerVersion": "1.0",
                "spark.sql.partitionProvider": "catalog",
                "classification": "delta",
                "spark.sql.sources.schema.numParts": "1",
                "spark.sql.sources.provider": "delta",
                "delta.lastUpdateVersion": "6",
                "delta.lastCommitTimestamp": "1653462383292",
                "table_type": "delta",
            },
            "StoredAsSubDirectories": False,
        },
        "PartitionKeys": [],
        "TableType": "EXTERNAL_TABLE",
        "Parameters": {
            "UPDATED_BY_CRAWLER": "sample_delta_table",
            "EXTERNAL": "true",
            "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"product_id","type":"string","nullable":true,"metadata":{}},{"name":"product_name","type":"string","nullable":true,"metadata":{}},{"name":"price","type":"long","nullable":true,"metadata":{}},{"name":"CURRENCY","type":"string","nullable":true,"metadata":{}},{"name":"category","type":"string","nullable":true,"metadata":{}},{"name":"updated_at","type":"double","nullable":true,"metadata":{}}]}',
            "CrawlerSchemaSerializerVersion": "1.0",
            "CrawlerSchemaDeserializerVersion": "1.0",
            "spark.sql.partitionProvider": "catalog",
            "classification": "delta",
            "spark.sql.sources.schema.numParts": "1",
            "spark.sql.sources.provider": "delta",
            "delta.lastUpdateVersion": "6",
            "delta.lastCommitTimestamp": "1653462383292",
            "table_type": "delta",
        },
        "CreatedBy": "arn:aws:sts::878625312159:assumed-role/all-services-admin-role/AWS-Crawler",
        "IsRegisteredWithLakeFormation": False,
        "CatalogId": "878625312159",
        "VersionId": "2",
    },
}

下面列出了我的最终解决方案.

delta_example_has_partition_manual_create_table.py

# -*- coding: utf-8 -*-

"""
这是我研究出来的如何用 `delta-rs <https://github.com/delta-io/delta-rs>`_ Python
进行写入, 但是用 Glue Table 作为元数据, 使得之后可以直接用 Athena 查询的方法.
"""

import polars as pl
from faker import Faker

from better_glue import Database, Table
from settings import bsm, aws_console, s3dir_db, database_name

table_name = "delta_example_hpmct"
s3dir_tb = s3dir_db.joinpath(table_name).to_dir()
crawler_name = f"{database_name}__{table_name}"
fake = Faker()

database_url = aws_console.glue.get_database(database_or_arn=database_name)
table_url = aws_console.glue.get_table(table_or_arn=table_name, database=database_name)
crawler_url = aws_console.glue.get_crawler(name_or_arn=crawler_name)
print(f"table s3dir = {s3dir_tb.console_url}")
print(f"{database_url = }")
print(f"{table_url = }")
print(f"{crawler_url = }")

credential = bsm.boto_ses.get_credentials()
storage_options = {
    "AWS_REGION": bsm.aws_region,
    "AWS_ACCESS_KEY_ID": credential.access_key,
    "AWS_SECRET_ACCESS_KEY": credential.secret_key,
    "AWS_S3_ALLOW_UNSAFE_RENAME": "true",
}


def prepare_data():
    print("prepare data ...")
    s3dir_tb.delete()

    df = pl.DataFrame(
        [
            {"id": 1, "name": "Alice", "year": "2001"},
            {"id": 2, "name": "Bob", "year": "2001"},
        ]
    )
    df.write_delta(
        s3dir_tb.uri,
        mode="append",
        delta_write_options=dict(
            partition_by=["year"],
        ),
        storage_options=storage_options,
    )

    df = pl.DataFrame(
        [
            {"id": 2, "name": "Bobby", "year": "2001"},
            {"id": 3, "name": "Cathy", "year": "2001"},
        ]
    )
    table_merger = df.write_delta(
        s3dir_tb.uri,
        mode="merge",
        delta_write_options=dict(
            partition_by=["year"],
        ),
        delta_merge_options=dict(
            predicate="s.id = t.id",
            source_alias="s",
            target_alias="t",
        ),
        storage_options=storage_options,
    )
    (
        table_merger.when_matched_update_all()  # will do update
        .when_not_matched_insert_all()  # will do insert
        .execute()
    )


def create_database():
    print("create database ...")
    db = Database.get(glue_client=bsm.glue_client, name=database_name)
    if db is None:
        bsm.glue_client.create_database(DatabaseInput=dict(Name=database_name))


def create_table():
    tb = Table.get(glue_client=bsm.glue_client, database=database_name, name=table_name)
    if tb is not None:
        bsm.glue_client.delete_table(DatabaseName=database_name, Name=table_name)

    bsm.glue_client.create_table(
        DatabaseName=database_name,
        TableInput=dict(
            Name=table_name,
            StorageDescriptor=dict(
                Columns=[
                    {"Name": "id", "Type": "bigint", "Comment": ""},
                    {"Name": "name", "Type": "string", "Comment": ""},
                ],
                Location=s3dir_tb.uri,
                InputFormat="org.apache.hadoop.mapred.SequenceFileInputFormat",
                OutputFormat="org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat",
                Compressed=False,
                NumberOfBuckets=-1,
                SerdeInfo={
                    "SerializationLibrary": "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe",
                    "Parameters": {
                        "serialization.format": "1",
                        "path": s3dir_tb.uri,
                    },
                },
                BucketColumns=[],
                SortColumns=[],
            ),
            Parameters={
                "EXTERNAL": "true",
                "spark.sql.sources.schema.part.0": '{"type":"struct","fields":[{"name":"id","type":"long","nullable":false,"metadata":{}},{"name":"name","type":"string","nullable":true,"metadata":{}}]}',
                "CrawlerSchemaSerializerVersion": "1.0",
                "CrawlerSchemaDeserializerVersion": "1.0",
                "spark.sql.partitionProvider": "catalog",
                "classification": "delta",
                "spark.sql.sources.schema.numParts": "1",
                "spark.sql.sources.provider": "delta",
                "delta.lastUpdateVersion": "6",
                "delta.lastCommitTimestamp": "1653462383292",
                "table_type": "delta",
            },
            PartitionKeys=[
                {"Name": "year", "Type": "string"},
            ],
            TableType="EXTERNAL_TABLE",
        ),
    )


# prepare_data()
# create_database()
# create_table()
# run_crawler()