选择适合开始 Spark 应用程序的工具。

0

【以下的问题经过翻译处理】 您能否建议使用哪些工具来迁移Spark应用程序到AWS?: Spark应用程序仅用于更改数据,没有任何UI。我们会定期启动它,可能每周启动几次。每次启动都会触及不同数量的来自Hadoop的数据。从我们团队中的不同人员启动该应用程序。

  • 输入为:Hadoop / Kafka / HDFS中的表,
  • 输出为:Hadoop / Kafka和一些Clickhouse,但不是非常困难。 现在,我们正在从Hadoop迁移到S3。 Kafka和Clickhouse保持不变,仍然在onprem中。 我听说过你们那边使用Spark的各种工具。例如:Amazon Athena,Amazon Athena for Apache Spark,EMR,ERM-serverless,EC2(还有什么?)。您能否建议其中哪些工具最适合我们的情况?
profile picture
EXPERTE
gefragt vor 5 Monaten64 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我建议使用Amazon EMR来运行您的Spark应用程序。Amazon EMR是一个托管的集群平台,简化了在AWS上运行大数据框架,如Apache Hadoop和Apache Spark的过程。它专为数据处理任务设计,是适合您使用情况的一个好选择。

ERM优势

  • EMR可以根据您的数据处理需求扩展或缩小您的集群。它还很好地与Amazon S3集成,可以用作数据湖,存储您的输入和输出数据。
  • EMR支持运行用Scala、Python和Java等不同编程语言编写的Spark应用程序。它还提供与Apache Kafka和其他AWS服务的集成。
  • 您可以使用EC2 Spot实例来节省在运行EMR集群时的成本。此外,EMR具有自动终止功能,可自动终止空闲的集群以节省成本。
  • EMR与AWS身份和访问管理(IAM)集成,允许您控制对您的Spark应用程序和数据的访问。
profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen