如何在超出40个指标限制时记录Sagemaker指标?

0

【以下的问题经过翻译处理】 如何在训练工作超出40个度量限制时记录度量?尝试创建一个用于命名实体识别(NER)任务的训练工作。由于我有很多类别(例如PER,ORG,LOC等),我希望能够相应地记录相关的指标。然而,当我运行estimator.fit()时,它抛出了以下错误:

ClientError:调用CreateTrainingJob操作时发生错误(ValidationException):检测到1个验证错误:在'algorithmSpecification.metricDefinitions'处,'[MetricDefinition(...),...]'的值未能满足限制:成员必须具有长度小于等于40
profile picture
专家
已提问 8 个月前25 查看次数
1 回答
0

【以下的回答经过翻译处理】 这与 CreateTrainingJob API 文档 一致,据我所知,这很难(不可调整的)限制。但是,如果您有强烈的要求,可能值得提出一个支持案例来仔细检查是否有可能增加?

您可以考虑通过 CloudWatch API / [boto3](https:/ /boto3.amazonaws.com/v1/documentation/api/latest/reference/services/cloudwatch.html)是否需要?我预计指标的可见位置会有一些限制(例如,在 SageMaker 控制台的训练作业详细信息页面上显示?在 SageMaker Studio 的实验和试验视图中显示?) - 但如果您能够将它们记录在它们可能会反映与自动收集的指标相同的“/aws/sagemaker/TrainingJobs/{TrainingJobName}”命名空间。您的脚本代码应该能够从 [TRAINING_JOB_NAME 环境变量](https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo -running-container.html#your-algorithms-training-algo-running-container-environment-variables)如果想试试这个。

请注意(虽然很快),指标数据 API 调用可能需要一些时间:在理想情况下,您可以异步执行它们以避免减慢您的训练工作。

profile picture
专家
已回答 8 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则