在SageMaker上如何使用parquet格式数据训练分类器?

0

【以下的问题经过翻译处理】 在使用SageMaker处理parquet数据用于训练时,哪种parquet数据加载比较好呢?是ml-io?还是pyarrow?有没有相关的例子可以参考呢?我想要训练分类器,比如逻辑回归、XGBoost或自定义的TF。

profile picture
전문가
질문됨 8달 전52회 조회
1개 답변
0

【以下的回答经过翻译处理】 XGBoost作为框架容器(v0.90+)可以读取Parquet进行训练。有效格式类型的完整列表包括CSV、LIBSVM、PARQUET、RECORDIO_PROTOBUF。

此外: 通过Uber Petastorm可以将Parquet读取为Tensorflow、Pytorch和PySpark输入。由于XGBoost接受numpy,您可以使用上述PyArrow从PySpark转换为numpy/pandas。

profile picture
전문가
답변함 8달 전

로그인하지 않았습니다. 로그인해야 답변을 게시할 수 있습니다.

좋은 답변은 질문에 명확하게 답하고 건설적인 피드백을 제공하며 질문자의 전문적인 성장을 장려합니다.

질문 답변하기에 대한 가이드라인

관련 콘텐츠