在SageMaker上如何使用parquet格式数据训练分类器?

0

【以下的问题经过翻译处理】 在使用SageMaker处理parquet数据用于训练时,哪种parquet数据加载比较好呢?是ml-io?还是pyarrow?有没有相关的例子可以参考呢?我想要训练分类器,比如逻辑回归、XGBoost或自定义的TF。

profile picture
專家
已提問 8 個月前檢視次數 52 次
1 個回答
0

【以下的回答经过翻译处理】 XGBoost作为框架容器(v0.90+)可以读取Parquet进行训练。有效格式类型的完整列表包括CSV、LIBSVM、PARQUET、RECORDIO_PROTOBUF。

此外: 通过Uber Petastorm可以将Parquet读取为Tensorflow、Pytorch和PySpark输入。由于XGBoost接受numpy,您可以使用上述PyArrow从PySpark转换为numpy/pandas。

profile picture
專家
已回答 8 個月前

您尚未登入。 登入 去張貼答案。

一個好的回答可以清楚地回答問題並提供建設性的意見回饋,同時有助於提問者的專業成長。

回答問題指南

相關內容