1 回答
- 最新
- 投票最多
- 评论最多
0
【以下的回答经过翻译处理】 这里涉及许多因素,我列举一些如下:
a) 实例配置是什么?是否足够?考虑扩容吗?
b) 自动缩放是否打开?
c) Spark UI中显示了什么?哪个任务占用的时间最长?是任务本身需要更多时间,还是等待资源占用更多时间?
c) 仔细阅读JDBC文档,有多少并行连接正在使用?
d) 是否使用了动态分区?
另外还有一些进阶的检查项目。
最重要的是代码,你是否使用了repartition /coalesce?在代码中是否使用了collect?代码通常是引起性能问题的主要因素。如果需要任何额外的信息,请随时与我联系。
相关内容
- AWS 官方已更新 1 年前
- AWS 官方已更新 1 年前
- AWS 官方已更新 2 年前
- AWS 官方已更新 3 年前