Quiero configurar Amazon EMR para usar Amazon Simple Storage Service (Amazon S3) como sistema de almacenamiento de Apache Hadoop en lugar del sistema de archivos distribuido de Hadoop (HDFS).
Resolución
No puede configurar Amazon EMR para que utilice Amazon S3 en lugar de HDFS para la capa de almacenamiento de Hadoop. Tanto HDFS como el sistema de archivos EMR (EMRFS), que utiliza Amazon S3, son compatibles con Amazon EMR, pero no son intercambiables. HDFS es una implementación de la API del sistema de archivos de Hadoop, que modela el comportamiento del sistema de archivos POSIX. EMRFS es un almacén de objetos, no un sistema de archivos. Para obtener más información, consulte la documentación de Hadoop para Object Stores vs. Filesystems.
Para obtener información general sobre las capas de almacenamiento de Amazon EMR, consulte Overview of Amazon EMR architecture.
Para obtener recomendaciones sobre cuándo usar cada sistema de archivos, consulte Work with storage and file systems.
Información relacionada
EMR File System (EMRFS)
HDFS configuration