在SageMaker上如何使用parquet格式数据训练分类器?

0

【以下的问题经过翻译处理】 在使用SageMaker处理parquet数据用于训练时,哪种parquet数据加载比较好呢?是ml-io?还是pyarrow?有没有相关的例子可以参考呢?我想要训练分类器,比如逻辑回归、XGBoost或自定义的TF。

profile picture
EXPERTO
preguntada hace 8 meses52 visualizaciones
1 Respuesta
0

【以下的回答经过翻译处理】 XGBoost作为框架容器(v0.90+)可以读取Parquet进行训练。有效格式类型的完整列表包括CSV、LIBSVM、PARQUET、RECORDIO_PROTOBUF。

此外: 通过Uber Petastorm可以将Parquet读取为Tensorflow、Pytorch和PySpark输入。由于XGBoost接受numpy,您可以使用上述PyArrow从PySpark转换为numpy/pandas。

profile picture
EXPERTO
respondido hace 8 meses

No has iniciado sesión. Iniciar sesión para publicar una respuesta.

Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.

Pautas para responder preguntas