如何对使用 AWS SDK 调用 Lambda 函数时出现的重试和超时问题进行故障排查?
当我使用 AWS SDK 调用 AWS Lambda 函数时,该函数超时、API 请求停止响应,或者 API 操作重复。如何对这些问题进行故障排除?
简短描述
使用亚马逊云科技开发工具包调用 Lambda 函数时出现重试和超时问题的原因有三个:
- 无法访问远程 API,或者需要太长时间来响应 API 调用。
- API 调用未在套接字超时内收到响应。
- API 调用未在 Lambda 函数的超时期内收到响应。
**注意:**当发生网络连接问题时,API 调用需要的时间可能比预期的长。网络问题还可能会造成重试和重复的 API 请求。要为这些情况做好准备,请确保您的 Lambda 函数保持幂等性。
如果您使用 AWS SDK 进行 API 调用且调用失败,则该 AWS SDK 会自动重试调用。亚马逊云科技开发工具包重试的次数和时间由每个亚马逊云科技开发工具包间不同的设置决定。
默认 AWS SDK 重试设置
**注意:**对于其他 AWS 服务,某些值可能会有所不同。
AWS SDK | 最大重试次数 | 连接超时 | 套接字超时 |
Python (Boto 3) | 取决于服务 | 60 秒 | 60 秒 |
JavaScript/Node.js | 取决于服务 | 不适用 | 120 秒 |
Java | 3 | 10 秒 | 50 秒 |
.NET | 4 | 100 秒 | 300 秒 |
Go | 3 | 不适用 | 不适用 |
要排查重试和超时问题,请先查看 API 调用日志以查找问题。然后,根据需要为每个使用案例更改 AWS SDK 的重试次数和超时设置。要允许足够的时间对 API 调用作出响应,请添加时间至 Lambda 函数超时设置。
解决方法
记录 AWS SDK 进行的 API 调用
使用 Amazon CloudWatch Logs 获取有关失败连接的详细信息以及每次连接的重试次数。有关更多信息,请参阅访问 AWS Lambda 的 Amazon CloudWatch Logs。或者参阅所使用的 AWS SDK 的说明:
- 采用 Python 编写的 AWS Lambda 函数日志记录
- 记录适用于 JavaScript 调用的亚马逊云科技开发工具包
- 记录适用于 Java 调用的亚马逊云科技开发工具包
- 记录适用于 .NET 的亚马逊云科技开发工具包
- 记录服务调用(适用于 AWS SDK for Go)
API 调用建立连接失败的错误日志示例(连接超时)
START RequestId: b81e56a9-90e0-11e8-bfa8-b9f44c99e76d Version: $LATEST 2018-07-26T14:32:27.393Z b81e56a9-90e0-11e8-bfa8-b9f44c99e76d [AWS ec2 undefined 40.29s 3 retries] describeInstances({}) 2018-07-26T14:32:27.393Z b81e56a9-90e0-11e8-bfa8-b9f44c99e76d { TimeoutError: Socket timed out without establishing a connection ...
API 调用连接成功但在 API 响应时间太长后超时的错误日志示例(套接字超时)
START RequestId: 3c0523f4-9650-11e8-bd98-0df3c5cf9bd8 Version: $LATEST 2018-08-02T12:33:18.958Z 3c0523f4-9650-11e8-bd98-0df3c5cf9bd8 [AWS ec2 undefined 30.596s 3 retries] describeInstances({}) 2018-08-02T12:33:18.978Z 3c0523f4-9650-11e8-bd98-0df3c5cf9bd8 { TimeoutError: Connection timed out after 30s
**注意:**如果 API 请求未在您的 Lambda 函数超时内收到响应,则不会生成这些日志。如果 API 请求因为函数超时而结束,则尝试下列各项之一:
- 更改开发工具包的重试设置,以在超时内进行所有重试。
- 暂时提高 Lambda 函数超时设置,以留出充足的时间来生成开发工具包日志。
更改亚马逊云科技开发工具包的设置
亚马逊云科技开发工具包的重试次数和超时设置应留出充足的时间来让 API 调用接收响应。要确定每个设置的正确值,测试不同的配置并获取以下信息:
- 成功建立连接的平均时间
- 完整的 API 请求所需的平均时间(直到它成功返回)
- 重试应由亚马逊云科技开发工具包还是由代码进行
有关更改重试次数和超时设置的更多信息,请参阅以下亚马逊云科技开发工具包客户端配置文档:
以下是一些示例命令,用于更改每个运行时的重试计数和超时设置。
**重要提示:**在使用以下任一命令之前,请将每个设置的示例值替换为适用于您的使用案例的值。
用于更改重试计数和超时设置的 Python (Boto 3) 命令示例
# max_attempts: retry count / read_timeout: socket timeout / connect_timeout: new connection timeout from botocore.session import Session from botocore.config import Config s = Session() c = s.create_client('s3', config=Config(connect_timeout=5, read_timeout=60, retries={'max_attempts': 2}))
用于更改重试计数和超时设置的 JavaScript/Node.js 命令示例
// maxRetries: retry count / timeout: socket timeout / connectTimeout: new connection timeout var AWS = require('aws-sdk'); AWS.config.update({ maxRetries: 2, httpOptions: { timeout: 30000, connectTimeout: 5000 } });
用于更改重试计数和超时设置的 Java 命令示例
// setMaxErrorRetry(): retry count / setSocketTimeout(): socket timeout / setConnectionTimeout(): new connection timeout ClientConfiguration clientConfig = new ClientConfiguration(); clientConfig.setSocketTimeout(60000); clientConfig.setConnectionTimeout(5000); clientConfig.setMaxErrorRetry(2); AmazonDynamoDBClient ddb = new AmazonDynamoDBClient(credentialsProvider,clientConfig);
用于更改重试计数和超时设置的 .NET 命令示例
// MaxErrorRetry: retry count / ReadWriteTimeout: socket timeout / Timeout: new connection timeout var client = new AmazonS3Client( new AmazonS3Config { Timeout = TimeSpan.FromSeconds(5), ReadWriteTimeout = TimeSpan.FromSeconds(60), MaxErrorRetry = 2 });
用于更改重试计数设置的 Go 命令示例
// Create Session with MaxRetry configuration to be shared by multiple service clients. sess := session.Must(session.NewSession(&aws.Config{ MaxRetries: aws.Int(3), })) // Create S3 service client with a specific Region. svc := s3.New(sess, &aws.Config{ Region: aws.String("us-west-2"), })
用于更改请求超时设置的 Go 命令示例
ctx, cancel := context.WithTimeout(context.Background(), 5*time.Second) defer cancel() // SQS ReceiveMessage params := &sqs.ReceiveMessageInput{ ... } req, resp := s.ReceiveMessageRequest(params) req.HTTPRequest = req.HTTPRequest.WithContext(ctx) err := req.Send()
(可选)更改您的 Lambda 函数超时设置
Lambda 函数超时低可能会导致运行状况良好的连接过早断开。如果您的使用案例发生此情况,请提高函数超时设置,以允许足够的时间让您的 API 调用收到响应。
使用以下公式估计函数超时所需的基本时间:
First attempt (connection timeout + socket timeout) + Number of retries x (connection timeout + socket timeout) + 20 seconds additional code runtime margin = Required Lambda function timeout
示例 Lambda 函数超时计算
**注意:**以下计算适用于配置为进行 3 次重试、连接超时 10 秒和套接字超时 30 秒的 AWS SDK。
First attempt (10 seconds + 30 seconds) + Number of retries [3 * (10 seconds + 30 seconds)] + 20 seconds additional code runtime margin = 180 seconds
相关信息
调用(Lambda API 参考)

相关内容
- AWS 官方已更新 7 个月前
- AWS 官方已更新 2 年前
- AWS 官方已更新 9 个月前