在SageMaker上如何使用parquet格式数据训练分类器?

0

【以下的问题经过翻译处理】 在使用SageMaker处理parquet数据用于训练时,哪种parquet数据加载比较好呢?是ml-io?还是pyarrow?有没有相关的例子可以参考呢?我想要训练分类器,比如逻辑回归、XGBoost或自定义的TF。

1 Antwort
0

【以下的回答经过翻译处理】 XGBoost作为框架容器(v0.90+)可以读取Parquet进行训练。有效格式类型的完整列表包括CSV、LIBSVM、PARQUET、RECORDIO_PROTOBUF。

此外: 通过Uber Petastorm可以将Parquet读取为Tensorflow、Pytorch和PySpark输入。由于XGBoost接受numpy,您可以使用上述PyArrow从PySpark转换为numpy/pandas。

profile picture
EXPERTE
beantwortet vor 8 Monaten

Du bist nicht angemeldet. Anmelden um eine Antwort zu veröffentlichen.

Eine gute Antwort beantwortet die Frage klar, gibt konstruktives Feedback und fördert die berufliche Weiterentwicklung des Fragenstellers.

Richtlinien für die Beantwortung von Fragen