我想对尝试启动 Amazon SageMaker Studio 时出现的问题进行故障排除。
解决方法
要确定导致 SageMaker Studio 启动失败的问题,请使用 Amazon CloudWatch Logs 查看您的应用程序中是否存在错误。要查看 CloudWatch 日志,请完成以下步骤:
- 打开 CloudWatch 控制台。
- 在导航窗格中的 Logs(日志)下,选择 Log Groups(日志组)。
- 在 Log Groups(日志组)页面上,搜索 /aws/sagemaker/studio。
- 在显示的日志流中,选择无法启动的应用程序对应的日志流。
- 根据启动失败的时间范围筛选日志流。
- 查看包含错误或异常消息的日志。
如果您的 SageMaker Studio 由于网络配置问题而无法启动,请生成 HAR 文件以查看 HTTP 错误代码。
针对您的问题完成相应的解决方法。
生命周期配置脚本错误
如果您将不正确的生命周期配置附加到 SageMaker Studio 的域级别或用户配置文件,则应用程序可能无法启动。
要解决生命周期配置脚本问题,请完成以下步骤:
- 打开 CloudWatch 控制台。
- 在导航窗格中的 Logs(日志)下,选择 Log Groups(日志组)。
- 在搜索栏中,输入 /aws/sagemaker/studio,然后选择结果。
- 在显示的日志流中,选择 [domain-id]/[user-profile-name]/[app-type]/[app-name]/LifecycleConfigOnStart。
- 根据启动失败的时间范围筛选日志流。
- 确定错误后,分离现有的生命周期脚本。
- 创建并附加新的生命周期脚本。
加载屏幕错误
如果加载屏幕没有响应,则您会收到以下消息:
“The loading screen is taking too long.Would you like to clear the workspace or keep waiting”
要解决此错误,请完成以下步骤:
- 清除当前浏览器中的缓存和 Cookie。
- 退出 AWS 管理控制台,然后重新登录。
- 打开您的 SageMaker Studio 应用程序。
如果您仍然收到加载屏幕错误消息,请使用其他浏览器打开 SageMaker Studio。
对于处于仅 VPC 模式的 SageMaker Studio,请确保将所需的端点附加到域的关联子网。有关详细信息,请参阅使用仅 VPC 模式的要求。
如果 SageMaker Studio 启动器未显示,请重置您的工作区。转到您尝试启动 SageMaker Studio 时看到的 URL。在 URL 的末尾,如果缺少 ?=reset,请进行添加,然后按 Enter。
JupyterServer 应用程序错误
如果 JupyterServer 应用程序遇到问题,则您会收到以下消息:
“The JupyterServer app default encountered a problem and was stopped.Restart Now”
要解决此错误,请从 SageMaker Studio 中删除该用户的所有应用程序。
完成以下步骤:
- 打开 SageMaker AI 控制台。
- 在导航窗格中,选择 Admin configurations(管理员配置),然后选择 Domains(域)。
- 选择您的域。
- 在 User profiles(用户配置文件)下,选择一个用户。
- 在 User Details(用户详细信息)页面上,对于应用程序列表中每个未失败的应用程序,选择 Action(操作)。
- 从下拉列表中,选择 Delete(删除)。
- 在 Delete app(删除应用程序)对话框中,选择 Yes, delete app(是,删除应用程序)。在确认对话框中,输入 delete,然后选择 Delete(删除)。
- 删除该用户的所有应用程序后,选择 Launch app(启动应用程序),然后选择 Studio。
- 对 User profiles(用户配置文件)下的每个用户重复步骤 4-8。
SageMaker Studio 会重启 Jupyter Notebook。如果问题未解决,请删除用户配置文件并重新创建配置文件。
**注意:**如果您删除某个用户,则该用户将无法访问 Amazon Elastic File System (Amazon EFS) 卷。但是,管理员仍可以访问卷数据。
删除该用户后,请添加具有适当的 AWS Identity and Access Management (IAM) 角色的新用户。然后,尝试使用该用户访问 SageMaker Studio。
启动 JupyterServer 应用程序时,您可能会收到“ERR_EMPTY_RESPONSE”错误。如果您使用 Google Chrome 浏览器访问网站时数据无法传输,则可能会收到此错误。
要解决“ERR_EMPTY_RESPONSE”错误,请执行以下一项或多项操作:
- 检查您的网络是否正常运行且稳定。
- 清除浏览器的 Cookie。
- 使用其他浏览器。
- 重新创建应用程序。
Amazon VPC 错误
如果您用于启动 SageMaker Studio 的 Amazon Virtual Private Cloud (Amazon VPC) 使用动态主机配置协议 (DHCP),您可能会收到以下错误:
“The JupyterServer app default encountered a problem and was stopped.If you continue to experience issues, please contact Customer Service.Details: InternalFailure”
要验证您是否正确配置了 DHCP 选项集,请完成以下步骤:
- 打开 Amazon VPC 控制台。
- 在导航窗格中,选择 Your VPCs(您的 VPC)。
- 选择您的 VPC,然后选择 Actions(操作)。
- 选择 Edit DHCP option set(编辑 DHCP 选项集)。
- 对于 DHCP options set(DHCP 选项集),选择任意现有选项集,然后选择 Save changes(保存更改)。
IAM Identity Center 错误
如果您的 SageMaker Studio 与 AWS IAM Identity Center 不在同一 AWS 区域,则您会收到以下错误:
“You're attempting to set up Studio with SSO authentication in Europe (Frankfurt).Your AWS SSO is configured in Europe (Ireland).You must set up Studio in the same Region as AWS SSO or choose IAM authentication.”
IAM Identity Center 必须设置在与 SageMaker Studio 相同的区域。要加入您的 SageMaker AI 域,请使用自定义设置流程进行 IAM 身份验证。
**注意:**确保为您的 AWS Organizations 管理账户或成员账户激活 IAM Identity Center。
AWS CloudTrail 事件历史记录
如果存在与用于启动 SageMaker Studio 的 API 调用相关的权限问题,则启动将失败。
要确定是否存在权限问题,请完成以下步骤:
- 打开 AWS CloudTrail 控制台。
- 在导航窗格中,选择 Event history(事件历史记录)。
- 选择 Lookup Attributes(查找属性),然后从下拉列表中选择 Event Source(事件源)。
- 选择 sagemaker.amazonaws.com。
- 事件加载完成后,查找尝试启动 SageMaker Studio 时发生的失败的 CreateApp 事件,然后选择该事件。
- 查看错误消息以确定缺失的权限。例如,您可能会看到一条错误消息,类似于“PermissionError : User "XYZ" is not authorized to perform sagemaker:CreateApp on this resource resource_ARN”。
- 向您的用户身份添加所需的权限,然后启动 Studio SageMaker。