选择适合开始 Spark 应用程序的工具。

0

【以下的问题经过翻译处理】 您能否建议使用哪些工具来迁移Spark应用程序到AWS?: Spark应用程序仅用于更改数据,没有任何UI。我们会定期启动它,可能每周启动几次。每次启动都会触及不同数量的来自Hadoop的数据。从我们团队中的不同人员启动该应用程序。

  • 输入为:Hadoop / Kafka / HDFS中的表,
  • 输出为:Hadoop / Kafka和一些Clickhouse,但不是非常困难。 现在,我们正在从Hadoop迁移到S3。 Kafka和Clickhouse保持不变,仍然在onprem中。 我听说过你们那边使用Spark的各种工具。例如:Amazon Athena,Amazon Athena for Apache Spark,EMR,ERM-serverless,EC2(还有什么?)。您能否建议其中哪些工具最适合我们的情况?
profile picture
专家
已提问 5 个月前58 查看次数
1 回答
0

【以下的回答经过翻译处理】 我建议使用Amazon EMR来运行您的Spark应用程序。Amazon EMR是一个托管的集群平台,简化了在AWS上运行大数据框架,如Apache Hadoop和Apache Spark的过程。它专为数据处理任务设计,是适合您使用情况的一个好选择。

ERM优势

  • EMR可以根据您的数据处理需求扩展或缩小您的集群。它还很好地与Amazon S3集成,可以用作数据湖,存储您的输入和输出数据。
  • EMR支持运行用Scala、Python和Java等不同编程语言编写的Spark应用程序。它还提供与Apache Kafka和其他AWS服务的集成。
  • 您可以使用EC2 Spot实例来节省在运行EMR集群时的成本。此外,EMR具有自动终止功能,可自动终止空闲的集群以节省成本。
  • EMR与AWS身份和访问管理(IAM)集成,允许您控制对您的Spark应用程序和数据的访问。
profile picture
专家
已回答 5 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则