如何对 AWS Backup 中失败的备份作业进行故障排除?
我的备份作业失败,在 AWS Backup 中处于 FAILED(失败)状态。
简短描述
您无法重试失败的备份作业。
如果定时备份计划激活了备份作业,则 AWS Backup 会在下一个计划运行时为该资源创建新的备份作业。如果您激活了手动或按需备份作业,则必须发出新的 StartBackupJob 请求才能备份资源。
**注意:**如果资源的备份作业无法运行,请参阅为什么我在 AWS Backup 中的定时备份计划没有运行?
要查看备份作业的状态,请使用监控工具或运行 describe-backup-job AWS 命令行界面 (AWS CLI) 命令。状态消息提供失败的备份作业的故障排除信息。
**注意:**如果您在运行 AWS CLI 命令时收到错误,请参阅 AWS CLI 错误故障排除。此外,请确保您使用的是最新版本的 AWS CLI。
解决方法
解决 IAM 权限问题
当 AWS Identity and Access Management (IAM) 角色存在权限问题时,您会收到以下错误消息之一:
- "You are not authorized to perform this operation"
- "Backup job failed because of insufficient privileges"
- 其他与权限相关的错误
要解决权限问题,请确保您满足创建备份的 IAM 角色的以下要求:
- 您将 AWS Backup 作为可信实体纳入 IAM 角色的信任策略,这样 AWS Backup 就可以代入该角色。
- 您的客户管理型策略包含备份作业与之交互的 AWS 服务的访问权限。
- 您向备份角色添加了 AWS Key Management Service (AWS KMS) 权限。该角色至少需要具备 KmsDecrypt、KmsCreateGrant 以及 KmsGenerateDataKey 权限。
**注意:**确认 AWS KMS 密钥策略具有 Principal arn:aws:iam::111122223333:root Amazon 资源名称 (ARN)。如果您未添加 IAM 主体 ARN,则 IAM 主体无法访问该密钥。如果 IAM 策略拒绝访问该密钥,您无需添加 IAM 主体 ARN。
**注意:**如果您使用 AWS Backup 创建的默认 IAM 角色,则该角色通过 AWSBackupServiceRolePolicyForBackup 和 AWSBackupServiceRolePolicyForRestores AWS 托管策略获得权限。
AWS Backup 可以创建两个具有不同权限和用例的 IAM 角色 AWSBackupDefaultServiceRole 和 AWSServiceRoleForBackup。确保使用正确的 IAM 角色。创建备份计划或激活手动备份作业时,请选择默认的 AWSBackupDefaultServiceRole 角色。
**注意:**最佳做法是使用 AWSBackupDefaultServiceRole 创建 Amazon Simple Storage Service (Amazon S3) 备份。有关对 S3 资源执行操作的默认角色,请参阅 Amazon S3 备份和还原的权限和策略。
解决备份作业完成时出现的问题
当备份作业未按时完成时,您会收到以下错误消息之一:
- "Backup Job did not complete within completion window"
- "An AWS Backup job failed to complete in time"
当备份作业由于上述错误之一而失败时,该作业还会显示 EXPIRED(已过期)状态。要解决这些问题,请参阅为什么我的备份作业在 AWS Backup 中处于 EXPIRED(已过期)状态?
或者,您可以使用 Complete within 参数在备份规则配置中指定备份时段。为 Complete within 参数设置更长的持续时间,以确保备份作业按时完成。
**注意:**Complete within 参数用于设置备份必须在其中完成的时段。AWS Backup 完成备份作业所需的时间各不相同。如果在 Complete within 时段内备份资源的数据传输未完成,则 AWS Backup 会停止备份作业。然后,备份作业显示 EXPIRED(已过期)状态。
解决生命周期问题
当备份库的保管库锁定时间为 MaxRetentionDays 和 MinRetentionDays 时,您会收到以下错误消息:
"Backup job failed because the lifecycle is outside the valid range for backup vault"
如果保留期不在指定的最大和最小保留期范围内,则会限制在保管库中创建备份。
要解决此问题,请将备份计划中的备份保留期更改为在指定范围内。或者,更新保管库锁定保留期配置。
解决 VMware 备份问题
执行 VMware 备份时,您会收到以下错误消息之一:
- "Unsupported disk size detected during backup creation.Aborted backup job"
- "Failed to process backup data during backup data processing.Aborted backup job"
要解决上述错误消息,请执行以下操作:
- 确保 AWS Backup 支持您的 VMware 虚拟机 (VM)。
- 打开所有必需的端口,这样 AWS Backup 网关就可以连接到主机并备份您的虚拟机。然后,确认您已在网关设备上正确配置 DNS 服务器。
- 如果您在虚拟机上将磁盘模式设置为 independent-persistent(独立永久)或 independent-non persistent(独立非永久),请将该模式更改为 dependent of all disks(依赖所有磁盘)。AWS Backup 仅支持依赖所有磁盘。
- 检查虚拟机的虚拟磁盘大小。AWS Backup 仅支持 1KiB 倍数的 VM 虚拟磁盘大小。要对备份作业失败的虚拟机进行故障排除,请运行 fdisk -l 命令。有关详细信息,请参阅 Red Hat 网站上的使用 fdisk 在 Linux 中管理分区。
解决 AWS KMS 错误
您会收到以下 AWS KMS 密钥错误消息之一:
- "FAILED - KMS key is either disabled or pending deletion or access to KMS key is denied"
- "KMS key access denied error"
- "KMS validation error"
要解决上述问题,请执行以下操作:
- 对于不支持全面 AWS Backup 管理的资源,请检查您是否已删除加密资源的 AWS KMS 密钥。如果您已删除密钥,请创建新的 AWS KMS 密钥。
- 对于支持全面 AWS Backup 管理的资源,请检查您是否已删除加密目标备份保管库的 AWS KMS 密钥。如果您已删除密钥,请创建新的 AWS KMS 密钥。
- 检查您是否已停用 AWS KMS 密钥。如果您已停用密钥,请将其重新激活并重新创建备份作业。
- 如果 AWS KMS 密钥处于待删除状态,则取消删除。
- 验证与备份作业关联的 IAM 角色是否具有 AWS KMS 密钥所需的权限。IAM 角色至少需要具备 KmsDecrypt、KmsCreateGrant 以及 KmsGenerateDataKey 权限。
解决 Amazon EC2 的 Windows VSS 备份失败问题
要解决 Amazon Elastic Compute Cloud (Amazon EC2) 的 Windows 卷影复制服务 (VSS) 备份失败问题,请执行以下操作:
- 确保您的 EC2 实例配置文件角色或备份角色具有所需的权限。
- 在 EC2 实例上安装最新版本的 AWS Systems Manager Agent (SSM Agent) 和 AWS Tools for PowerShell。要安装 SSM Agent,请参阅 GitHub 网站上的 amazon-ssm-agent。
- 检查系统资源以确定 Windows VSS 备份是否因创建快照时系统负载过高而超时。
- 查看位于 C:\ProgramData\Amazon\SSM\Logs 的 SSM Agent 日志,对快照创建过程中出现的问题进行故障排除。
