从端点获取数据时出现Sagemaker错误

Question

【以下的问题经过翻译处理】 在Sagemaker中，我使用了KMEANS训练了一个端点。我正在尝试使用Sagemaker笔记本服务器中的pyspark从部署的端点进行预测。我正在使用示例数据来尝试获取预测结果。
```
from  sagemaker_pyspark import SageMakerModel
from  sagemaker_pyspark.transformation.serializers import ProtobufRequestRowSerializer
from  sagemaker_pyspark.transformation.deserializers import KMeansProtobufResponseRowDeserializer
conf = (SparkConf()
        .set("spark.driver.extraClassPath", ":".join(sagemaker_pyspark.classpath_jars())))
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
region = "us-east-1"
training_data = sqlContext.read.format("libsvm").option("numFeatures", "784")
training=training_data.load("s3a://sagemaker-sample-data-{}/spark/mnist/train/".format(region))

smModel = SageMakerModel.fromEndpoint(
    endpointName="endpoint-9ad5fcee9c52-2017-12-08T13-36-26-267",
    requestRowSerializer=rowSer,
    responseRowDeserializer=KMeansProtobufResponseRowDeserializer(
        closest_cluster_column_name="cluster",
        distance_to_cluster_column_name="closest",
       ),
    )

transformed=smModel.transform(training)
```

Answer

【以下的回答经过翻译处理】 我解决了问题。实际上，示例没有说明需要将Python模型从Java模型转换回来，而且你不能直接在数据框上调用transform()函数。以下是完整代码。
```
from  sagemaker_pyspark import SageMakerModel
from  sagemaker_pyspark.transformation.serializers import ProtobufRequestRowSerializer
from  sagemaker_pyspark.transformation.deserializers import KMeansProtobufResponseRowDeserializer

rowSer=ProtobufRequestRowSerializer(featuresColumnName="features")

smModel = SageMakerModel.fromEndpoint(
    endpointName="endpoint-9ad5fcee9c52-2017-12-08T13-36-26-267",
    requestRowSerializer=rowSer,
    responseRowDeserializer=KMeansProtobufResponseRowDeserializer(
        closest_cluster_column_name="cluster",
        distance_to_cluster_column_name="closest")
)

ew_model = SageMakerModel._from_java(smModel)

data=SageMakerModel.transform(ew_model,pred)
```

从端点获取数据时出现Sagemaker错误

相關內容