Sagemaker和数据库中的数据

0

【以下的问题经过翻译处理】 一个客户有关于数据来源的问题:“我们大部分的数据存储在SQL数据库中,而SageMaker文档说我必须把所有数据都放到S3中。最好的方法并不明显。例如,我可以考虑将分析代码拆分为两部分;一部分用于预处理,从SQL查询转换为表格数据,然后将其存储为Parquet文件。对于高维张量数据甚至更不明显。”有人可以对此发表评论吗?

profile picture
專家
已提問 5 個月前檢視次數 38 次
1 個回答
0

【以下的回答经过翻译处理】 我们有一个示例笔记本,适用于从SageMaker托管笔记本与Redshift数据交互,我认为它适用于探索性数据分析(EDA)。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionality/working_with_redshift_data/working_with_redshift_data.ipynb

对于生产目的,客户应考虑将首次从关系型数据库中提取数据到S3(以构建数据湖)的工作与下游处理/机器学习(包括SageMaker,EMR,Athena,Spectrum等)分离。客户可以使用AWS Glue,EMR或其首选ETL引擎(如AWS Marketplace上的引擎)从流行的关系型数据库中构建提取管道。

profile picture
專家
已回答 5 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南