Sagemaker和数据库中的数据

0

【以下的问题经过翻译处理】 一个客户有关于数据来源的问题:“我们大部分的数据存储在SQL数据库中,而SageMaker文档说我必须把所有数据都放到S3中。最好的方法并不明显。例如,我可以考虑将分析代码拆分为两部分;一部分用于预处理,从SQL查询转换为表格数据,然后将其存储为Parquet文件。对于高维张量数据甚至更不明显。”有人可以对此发表评论吗?

1개 답변
0

【以下的回答经过翻译处理】 我们有一个示例笔记本,适用于从SageMaker托管笔记本与Redshift数据交互,我认为它适用于探索性数据分析(EDA)。 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/advanced_functionality/working_with_redshift_data/working_with_redshift_data.ipynb

对于生产目的,客户应考虑将首次从关系型数据库中提取数据到S3(以构建数据湖)的工作与下游处理/机器学习(包括SageMaker,EMR,Athena,Spectrum等)分离。客户可以使用AWS Glue,EMR或其首选ETL引擎(如AWS Marketplace上的引擎)从流行的关系型数据库中构建提取管道。

profile picture
전문가
답변함 5달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠