关于亚马逊网络服务:Glue Job 无法写入文件

Glue Job fails to write file

我回来通过胶水作业填充一些数据。工作本身是从 s3 读取 TSV,稍微转换数据,然后在 Parquet 中将其写入 S3。由于我已经拥有数据,我试图一次启动多个作业以减少处理所有数据所需的时间。当我同时启动多个作业时,有时会遇到一个问题,其中一个文件无法在 S3 中输出生成的 Parquet 文件。作业本身成功完成而不会引发错误当我将作业作为非并行任务重新运行时,它会正确输出文件。是否存在一些问题,无论是胶水(或底层火花)还是 S3 都会导致我的问题?


并行运行的同一 Glue 作业可能会生成具有相同名称的文件,因此其中一些文件可能会被覆盖。我没记错,transformation-context 被用作名称的一部分。我假设您没有启用书签,因此您应该安全地动态生成转换上下文值以确保它对于每个作业都是唯一的。