如何对使用 AWS SDK 调用 Lambda 函数时出现的重试和超时问题进行故障排查?

3 分钟阅读
0

当我使用 AWS SDK 调用 AWS Lambda 函数时,该函数超时、API 请求停止响应,或者 API 操作重复。如何对这些问题进行故障排除?

简短描述

使用亚马逊云科技开发工具包调用 Lambda 函数时出现重试和超时问题的原因有三个:

  • 无法访问远程 API,或者需要太长时间来响应 API 调用。
  • API 调用未在套接字超时内收到响应。
  • API 调用未在 Lambda 函数的超时期内收到响应。

**注意:**当发生网络连接问题时,API 调用需要的时间可能比预期的长。网络问题还可能会造成重试和重复的 API 请求。要为这些情况做好准备,请确保您的 Lambda 函数保持幂等性

如果您使用 AWS SDK 进行 API 调用且调用失败,则该 AWS SDK 会自动重试调用。亚马逊云科技开发工具包重试的次数和时间由每个亚马逊云科技开发工具包间不同的设置决定。

默认 AWS SDK 重试设置

**注意:**对于其他 AWS 服务,某些值可能会有所不同。

AWS SDK最大重试次数连接超时套接字超时
Python (Boto 3)取决于服务60 秒60 秒
JavaScript/Node.js取决于服务不适用120 秒
Java310 秒50 秒
.NET4100 秒300 秒
Go3不适用不适用

要排查重试和超时问题,请先查看 API 调用日志以查找问题。然后,根据需要为每个使用案例更改 AWS SDK 的重试次数和超时设置。要允许足够的时间对 API 调用作出响应,请添加时间至 Lambda 函数超时设置

解决方法

记录 AWS SDK 进行的 API 调用

使用 Amazon CloudWatch Logs 获取有关失败连接的详细信息以及每次连接的重试次数。有关更多信息,请参阅访问 AWS Lambda 的 Amazon CloudWatch Logs。或者参阅所使用的 AWS SDK 的说明:

API 调用建立连接失败的错误日志示例(连接超时)

START RequestId: b81e56a9-90e0-11e8-bfa8-b9f44c99e76d Version: $LATEST
2018-07-26T14:32:27.393Z    b81e56a9-90e0-11e8-bfa8-b9f44c99e76d    [AWS ec2 undefined 40.29s 3 retries] describeInstances({})
2018-07-26T14:32:27.393Z    b81e56a9-90e0-11e8-bfa8-b9f44c99e76d    { TimeoutError: Socket timed out without establishing a connection

...

API 调用连接成功但在 API 响应时间太长后超时的错误日志示例(套接字超时)

START RequestId: 3c0523f4-9650-11e8-bd98-0df3c5cf9bd8 Version: $LATEST
2018-08-02T12:33:18.958Z    3c0523f4-9650-11e8-bd98-0df3c5cf9bd8    [AWS ec2 undefined 30.596s 3 retries] describeInstances({})
2018-08-02T12:33:18.978Z    3c0523f4-9650-11e8-bd98-0df3c5cf9bd8    { TimeoutError: Connection timed out after 30s

**注意:**如果 API 请求未在您的 Lambda 函数超时内收到响应,则不会生成这些日志。如果 API 请求因为函数超时而结束,则尝试下列各项之一:

  • 更改开发工具包的重试设置,以在超时内进行所有重试。
  • 暂时提高 Lambda 函数超时设置,以留出充足的时间来生成开发工具包日志。

更改亚马逊云科技开发工具包的设置

亚马逊云科技开发工具包的重试次数和超时设置应留出充足的时间来让 API 调用接收响应。要确定每个设置的正确值,测试不同的配置并获取以下信息:

  • 成功建立连接的平均时间
  • 完整的 API 请求所需的平均时间(直到它成功返回)
  • 重试应由亚马逊云科技开发工具包还是由代码进行

有关更改重试次数和超时设置的更多信息,请参阅以下亚马逊云科技开发工具包客户端配置文档:

以下是一些示例命令,用于更改每个运行时的重试计数和超时设置。

**重要提示:**在使用以下任一命令之前,请将每个设置的示例值替换为适用于您的使用案例的值。

用于更改重试计数和超时设置的 Python (Boto 3) 命令示例

# max_attempts: retry count / read_timeout: socket timeout / connect_timeout: new connection timeout

from botocore.session import Session
from botocore.config import Config

s = Session()
c = s.create_client('s3', config=Config(connect_timeout=5, read_timeout=60, retries={'max_attempts': 2}))

用于更改重试计数和超时设置的 JavaScript/Node.js 命令示例

// maxRetries: retry count / timeout: socket timeout / connectTimeout: new connection timeout

var AWS = require('aws-sdk');

AWS.config.update({

    maxRetries: 2,

    httpOptions: {

        timeout: 30000,

        connectTimeout: 5000

    }

});

用于更改重试计数和超时设置的 Java 命令示例

// setMaxErrorRetry(): retry count / setSocketTimeout(): socket timeout / setConnectionTimeout(): new connection timeout

ClientConfiguration clientConfig = new ClientConfiguration(); 

clientConfig.setSocketTimeout(60000); 
clientConfig.setConnectionTimeout(5000);
clientConfig.setMaxErrorRetry(2);

AmazonDynamoDBClient ddb = new AmazonDynamoDBClient(credentialsProvider,clientConfig);

用于更改重试计数和超时设置的 .NET 命令示例

// MaxErrorRetry: retry count / ReadWriteTimeout: socket timeout / Timeout: new connection timeout

var client = new AmazonS3Client(

    new AmazonS3Config {
        Timeout = TimeSpan.FromSeconds(5),
        ReadWriteTimeout = TimeSpan.FromSeconds(60),
        MaxErrorRetry = 2
});

用于更改重试计数设置的 Go 命令示例

// Create Session with MaxRetry configuration to be shared by multiple service clients.
sess := session.Must(session.NewSession(&aws.Config{
    MaxRetries: aws.Int(3),
}))
 
// Create S3 service client with a specific Region.
svc := s3.New(sess, &aws.Config{
    Region: aws.String("us-west-2"),
})

用于更改请求超时设置的 Go 命令示例

ctx, cancel := context.WithTimeout(context.Background(), 5*time.Second)
defer cancel()
// SQS ReceiveMessage
params := &sqs.ReceiveMessageInput{ ... }
req, resp := s.ReceiveMessageRequest(params)
req.HTTPRequest = req.HTTPRequest.WithContext(ctx)
err := req.Send()

(可选)更改您的 Lambda 函数超时设置

Lambda 函数超时低可能会导致运行状况良好的连接过早断开。如果您的使用案例发生此情况,请提高函数超时设置,以允许足够的时间让您的 API 调用收到响应。

使用以下公式估计函数超时所需的基本时间:

First attempt (connection timeout + socket timeout) + Number of retries x (connection timeout + socket timeout) + 20 seconds additional code runtime margin = Required Lambda function timeout

示例 Lambda 函数超时计算

**注意:**以下计算适用于配置为进行 3 次重试、连接超时 10 秒和套接字超时 30 秒的 AWS SDK。

First attempt (10 seconds + 30 seconds) + Number of retries [3 * (10 seconds + 30 seconds)] + 20 seconds additional code runtime margin = 180 seconds

相关信息

调用(Lambda API 参考)

AWS Lambda 中的错误处理和自动重试

Lambda 配额

AWS 官方
AWS 官方已更新 2 年前