1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 我知道除了主节点之外,节点没有外部互联性,所以您甚至无法在集群内运行DistCP。
我认为最简单的方法是在主节点上创建一个脚本,将文件移到本地分布式文件系统上,并使用标准的AWS S3命令行客户端进行上传(必要时修改带宽和并行度)。
如果您不想执行暂时的本地副本,则另一个选择是在本地模式下运行DistCp,这样它只在主节点上运行,但可以直接访问hdfs和s3。
据我所知,您提出的外部访问集群的Web解决方案需要DataNode可访问(实际上主节点并没有数据)。
解决方法是使用类似Knox的代理服务,但与在群集主节点上运行脚本的选择相比,它需要处理所有安全问题,较为麻烦。 从安全上考虑,最好还是搭建on premium 到AWS的私有网络vpn或者专线进行数据传输或者通过snowball物理拷贝。
