选择适合开始 Spark 应用程序的工具。

0

【以下的问题经过翻译处理】 您能否建议使用哪些工具来迁移Spark应用程序到AWS?: Spark应用程序仅用于更改数据,没有任何UI。我们会定期启动它,可能每周启动几次。每次启动都会触及不同数量的来自Hadoop的数据。从我们团队中的不同人员启动该应用程序。

  • 输入为:Hadoop / Kafka / HDFS中的表,
  • 输出为:Hadoop / Kafka和一些Clickhouse,但不是非常困难。 现在,我们正在从Hadoop迁移到S3。 Kafka和Clickhouse保持不变,仍然在onprem中。 我听说过你们那边使用Spark的各种工具。例如:Amazon Athena,Amazon Athena for Apache Spark,EMR,ERM-serverless,EC2(还有什么?)。您能否建议其中哪些工具最适合我们的情况?
profile picture
EXPERTO
preguntada hace 5 meses64 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 我建议使用Amazon EMR来运行您的Spark应用程序。Amazon EMR是一个托管的集群平台,简化了在AWS上运行大数据框架,如Apache Hadoop和Apache Spark的过程。它专为数据处理任务设计,是适合您使用情况的一个好选择。

ERM优势

  • EMR可以根据您的数据处理需求扩展或缩小您的集群。它还很好地与Amazon S3集成,可以用作数据湖,存储您的输入和输出数据。
  • EMR支持运行用Scala、Python和Java等不同编程语言编写的Spark应用程序。它还提供与Apache Kafka和其他AWS服务的集成。
  • 您可以使用EC2 Spot实例来节省在运行EMR集群时的成本。此外,EMR具有自动终止功能,可自动终止空闲的集群以节省成本。
  • EMR与AWS身份和访问管理(IAM)集成,允许您控制对您的Spark应用程序和数据的访问。
profile picture
EXPERTO
respondido hace 5 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas