Sagemaker和数据库中的数据

0

【以下的问题经过翻译处理】 一个客户有关于数据来源的问题:“我们大部分的数据存储在SQL数据库中,而SageMaker文档说我必须把所有数据都放到S3中。最好的方法并不明显。例如,我可以考虑将分析代码拆分为两部分;一部分用于预处理,从SQL查询转换为表格数据,然后将其存储为Parquet文件。对于高维张量数据甚至更不明显。”有人可以对此发表评论吗?

profile picture
EXPERTE
gefragt vor 5 Monaten38 Aufrufe
1 Antwort
0

【以下的回答经过翻译处理】 我们有一个示例笔记本,适用于从SageMaker托管笔记本与Redshift数据交互,我认为它适用于探索性数据分析(EDA)。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionality/working_with_redshift_data/working_with_redshift_data.ipynb

对于生产目的,客户应考虑将首次从关系型数据库中提取数据到S3(以构建数据湖)的工作与下游处理/机器学习(包括SageMaker,EMR,Athena,Spectrum等)分离。客户可以使用AWS Glue,EMR或其首选ETL引擎(如AWS Marketplace上的引擎)从流行的关系型数据库中构建提取管道。

profile picture
EXPERTE
beantwortet vor 5 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen