在SageMaker上如何使用parquet格式数据训练分类器?

0

【以下的问题经过翻译处理】 在使用SageMaker处理parquet数据用于训练时,哪种parquet数据加载比较好呢?是ml-io?还是pyarrow?有没有相关的例子可以参考呢?我想要训练分类器,比如逻辑回归、XGBoost或自定义的TF。

profile picture
专家
已提问 8 个月前50 查看次数
1 回答
0

【以下的回答经过翻译处理】 XGBoost作为框架容器(v0.90+)可以读取Parquet进行训练。有效格式类型的完整列表包括CSV、LIBSVM、PARQUET、RECORDIO_PROTOBUF。

此外: 通过Uber Petastorm可以将Parquet读取为Tensorflow、Pytorch和PySpark输入。由于XGBoost接受numpy,您可以使用上述PyArrow从PySpark转换为numpy/pandas。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则