Amazon EMR を使用して Amazon Simple Storage Service(Amazon S3) との間でデータを変換または移動すると、「_$folder$ 」というサフィックスを持ついくつかの空のファイルが S3 バケットに表示されます。これらのファイルは何ですか ? 削除しても安全ですか?
解決方法
「_$folder$」ファイルはプレースホルダーです。-mkdir コマンドを使用して S3 バケットにフォルダを作成すると、Apache Hadoop はこれらのファイルを作成します。Hadoop は、最初のオブジェクトを PUT するまで、フォルダを作成しません。少なくとも 1 つのオブジェクトを PUT する前に「_$folder$」ファイルを削除した場合、Hadoop はフォルダを作成できません。これにより、「そのようなファイルまたはディレクトリがありません」というエラーになります。
一般的に、「_$folder$」ファイルは削除しないことをお勧めします。削除すると、Amazon EMR ジョブのパフォーマンスの問題が発生する可能性があります。例外は、Amazon S3 から手動でフォルダを削除し、Amazon EMR ジョブまたは Hadoop コマンドでフォルダを再作成しようとした場合です。フォルダを再作成する前に「_$folder$」ファイルを削除しないと、「ファイルは存在します」エラーが発生します。
関連情報
Amazon S3 にデータをアップロードする
出力場所を設定する