Como posso solucionar o atraso de replicação ou um backlog no meu servidor de origem Windows para o Application Migration Service?

10 minuto de leitura
0

Vejo um atraso ou backlog no meu servidor de origem Windows ao replicar dados usando o AWS Application Migration Service.

Breve descrição

A seguir estão os fatores que contribuem para o atraso e o backlog de replicação ao replicar dados de um servidor de origem para um servidor de destino:

  • Velocidade de uplink de rede e disponibilidade de largura de banda: A velocidade da conexão de rede entre o servidor de origem e o servidor de replicação pode ter um impacto significativo no desempenho da replicação. Conexões lentas podem impedir a conclusão do processo de replicação. Além disso, a largura de banda limitada limita a quantidade de dados que você pode replicar em um determinado momento.
  • Alterações no disco durante a replicação: Durante o processo de replicação, o servidor de origem pode continuar gravando novos dados em seus discos. Se houver um grande aumento na quantidade de novos dados que o servidor de origem está gravando, os dados se acumulam e criam um backlog significativo. O AWS Replication Agent deve enviar esse backlog com a sincronização inicial. Quanto maior o backlog, mais tempo é necessário para concluir a replicação dos dados.
  • Velocidade de E/S dos discos de armazenamento: Durante o processo de replicação, o AWS Replication Agent lê blocos de armazenamento de discos e transmite dados para o servidor de replicação. No entanto, a alta latência de leitura nos discos do servidor de origem pode afetar a velocidade e a eficiência da replicação de dados. Discos lentos causam atrasos e discos rápidos melhoram a velocidade de replicação.
  • Carga no servidor de origem: A contenção de recursos no servidor de origem pode levar à alta utilização da CPU, consumo de memória, espera de E/S ou outras restrições de recursos. Por exemplo, a alta utilização da CPU pode causar gargalos na replicação. Isso ocorre porque o sistema se esforça para alocar recursos de CPU entre o AWS Replication Agent e outros processos. Da mesma forma, o alto consumo de memória pode fazer com que o sistema troque páginas de memória pelo disco. Isso resulta em maior espera de E/S e em uma desaceleração no processo de replicação.
  • Recursos de replicação subprovisionados: A preparação de volumes do Amazon Elastic Block Store (Amazon EBS) com menor throughput e IOPS pode causar alta latência de leitura e gravação e alto comprimento de fila. Todos esses problemas afetam o desempenho da replicação. Além disso, um tipo de instância de servidor de replicação com baixa throughput de rede e largura de banda do Amazon EBS leva a problemas de desempenho de replicação.

Resolução

Para determinar o motivo do atraso, primeiro execute verificações no servidor de origem. Em seguida, realize verificações na área de espera.

Verificações do servidor de origem

Verifique se o servidor de origem está inicializado e em execução

Certifique-se de que o servidor de origem da migração esteja inicializado e em execução.

Verifique se os processos do AWS Replication Agent estão em execução

Execute o seguinte comando do PowerShell para listar os serviços do AWS Replication Agent em execução:

get-service | where-object name -like “*AWSR*”

A saída a seguir mostra os serviços padrão que estão sendo executados. Verifique se o AWSReplicationService principal está em execução:

PS C:\Users\Administrator> get-service | where-object name -like “*AWSR*”

Status   Name               DisplayName
------   ----               -----------
Running  AwsReplicationD... AwsReplicationDriverLogger
Running  AwsReplicationL... AwsReplicationLogger
Stopped  AwsReplicationP... AwsReplicationPostConvertService
Running  AwsReplicationS... AwsReplicationService
Running  AwsReplicationV... AwsReplicationVolumeUpdaterService

Ou pressione Windows+ R e, em seguida, digite services.msc e pressione Enter. Verifique se o AWSReplicationService está em execução.

Verifique as conexões TCP ativas

Verifique se há cinco conexões TCP ativas estabelecidas com o servidor de replicação na porta TCP 1500.

Execute o seguinte comando:

C:\Users\Administrator>netstat -an | find "1500"

Verifique a saída do comando para ver as conexões ativas:

TCP    172.31.82.135:50929    <Replicator Instance IP>:1500    ESTABLISHED
TCP    172.31.82.135:50930    <Replicator Instance IP>:1500    ESTABLISHED
TCP    172.31.82.135:50931    <Replicator Instance IP>:1500    ESTABLISHED
TCP    172.31.82.135:50933    <Replicator Instance IP>:1500    ESTABLISHED
TCP    172.31.82.135:50934    <Replicator Instance IP>:1500    ESTABLISHED

Use o Monitor de Recursos do Windows para verificar o desempenho no servidor de origem

O AWS Replication Agent opera em um núcleo de CPU por vez. Se a utilização da CPU estiver alta no núcleo em que o AWS Replication Agent está sendo executado, a replicação de dados ficará mais lenta. Para verificar a utilização da CPU, conclua as seguintes etapas:

1.    Use um dos seguintes métodos para iniciar o Monitor de Recursos do Windows:

  • Na guia Desempenho do Gerenciador de tarefas, escolha Abrir Monitor de Recursos.
  • No Painel de Controle, escolha Ferramentas Administrativas, Monitor de Recursos.
  • Execute o resmon.exe na linha de comando ou no PowerShell.
  • Escolha o ícone do Windows e, em seguida, digite resmon.exe.

2.    Verifique a utilização da CPU do núcleo da CPU em que o AWS Replication Agent está sendo executado.

  • Se a utilização da CPU for alta nesse núcleo, investigue qual processo está consumindo a maior parte da CPU.
  • O agente usa pelo menos 5% da CPU. Verifique se há CPU suficiente disponível para que o agente realize a replicação dos dados.

3.    Verifique o desempenho do disco no servidor de origem.

Verifique as métricas Gravação (B/s) e Tempo de resposta.

Você pode verificar essas métricas em Atividade de disco. Se houver baixa throughput de leitura no disco de origem, o agente lê e replica menos dados. Observe qualquer aumento nas métricas de leitura e gravação em disco.

**Observação:**A largura de banda necessária para transferir os dados replicados pela porta TCP 1500 é baseada na velocidade de gravação do servidor de origem participante. É uma prática recomendada ter uma largura de banda que seja pelo menos a soma da velocidade média de gravação de todas as máquinas de origem replicadas.

4.    Verifique se há um pico nas operações de gravação no servidor de origem.

Para verificar as operações de gravação em Atividade de disco, procure Gravação (B/s).

Conforme a workload muda, verifique o desempenho do disco periodicamente para determinar a carga de E/S. Se a throughput de gravação (MB/s) exceder a quantidade fornecida de throughput da rede, você verá atraso na replicação.

**Observação:**Para calcular a largura de banda necessária do servidor de origem para o servidor de replicação, consulte Calculating the required bandwidth for TCP Port 1500 (Calcular a largura de banda necessária para a porta TCP 1500).

Se o servidor de origem usa muita gravação e está gravando mais do que a velocidade da replicação, o backlog continua crescendo.

Verifique a velocidade de replicação e a largura de banda disponível do servidor de origem para a sub-rede da área de teste

Para obter informações sobre como executar um teste de velocidade, consulte Como posso realizar um teste de conectividade e largura de banda SSL?

Verifique se há um servidor de origem que foi desligado incorretamente

Se um servidor de origem for desligado incorretamente, o AWS Replication Agent verificará novamente todos os discos após a reinicialização do servidor. O AWS Replication Agent relê os discos, e o atraso aumenta continuamente até que a nova digitalização seja concluída. Para obter mais informações, consulte Quais sistemas operacionais Windows e Linux suportam a verificação sem necessidade de reinicialização?

Para verificar como a máquina de origem foi desligada, conclua as seguintes etapas:

1.    Pressione Windows+ R e, em seguida, digite eventvwr.msc e pressione Enter.

2.    No Visualizador de Eventos, clique duas vezes em Logs do Windows para expandi-lo.

3.    Clique com o botão direito em Sistema.

4.    Escolha Filtrar Log Atual.

5.    Escolha a seta suspensa ao lado de Fontes de evento e, em seguida, escolha USER32.

6.    No campo <All Event IDs>, digite 1074 e escolha OK. Você vê uma lista de eventos de desligamento e reinicialização do Tipo de Desligamento no Visualizador de Eventos.

7.    Para ver as datas e horários de todos os desligamentos inesperados do computador, digite 6008 no campo <All Event IDs> e, em seguida, escolha OK.

Verifique se a porta TCP 1500 não está bloqueada na saída

1.    Verifique se a porta TCP 1500 não está bloqueada na saída do servidor de origem para o servidor de replicação.

2.    Você pode executar um Telnet ou TNC para o endereço IP da instância do replicador, conforme mostrado nos exemplos a seguir:

  • Do CMD: telnet <replication subnet IP address> 1500
  • Do PowerShell: TNC <replication subnet IP address> -porta 1500

3.    Verifique se seu firewall local permite a conectividade do servidor de origem com o servidor de replicação pela porta TCP 443. Para ativar a conectividade no firewall do sistema operacional, conclua as seguintes ações:

  • No servidor de origem, abra o console do Firewall do Windows.
  • No console, escolha a opção Regras de Saída na árvore.
  • Na tabela Regras de Saída, selecione a regra relacionada à conexão Porta Remota - 1500. Verifique se o status Ativado está definido como Sim.
  • Se o status Ativado da regra for Não, clique com o botão direito do mouse e selecione Ativar regra.

4.    Para permitir o tráfego pela porta TCP 1500, verifique se seu firewall corporativo permite essa conectividade.

**Observação:**Você também pode realizar o teste de velocidade SSL ou o teste iperf. Para obter mais informações, consulte Como posso realizar um teste de conectividade e largura de banda SSL?

Verifique se a limitação da largura de banda está desativada nas configurações de replicação no servidor de origem

Desative a limitação da largura de banda nas configurações de replicação do servidor de origem. Desativar a limitação da largura de banda ajuda a manter a largura de banda suficiente para a transferência de dados do servidor de origem para a sub-rede da área de teste.

Ativar o controle de utilização da largura de banda no servidor de origem resulta em atraso constante ou estagnado no crescimento. Isso ocorre porque a limitação limita a replicação de dados do servidor de origem para o servidor de replicação.

Para verificar a limitação da largura de banda, conclua as seguintes etapas:

1.    Abra o console do Application Migration Service.

2.    Escolha Configurações e, em seguida, selecione o modelo de replicação em Roteamento e controle de utilização de dados.

3.    Se a Controlar utilização da largura de banda da rede estiver ativada, verifique o valor e compare-o com a velocidade de replicação listada. Para obter mais informações, consulte a seção anterior Verifique a velocidade de replicação e a largura de banda disponível do servidor de origem para a sub-rede da área de teste.

Verificações de recursos da área de teste

**Verifique se a porta TCP 1500 não está bloqueada na entrada **

Verifique se a porta TCP 1500 não esteja bloqueada na entrada nos grupos de segurança do servidor de replicação.

**Observação:**Você deve concluir as etapas a seguir no console do Amazon Elastic Compute Cloud (Amazon EC2).

1.    Abra o console do Amazon EC2.

2.    Selecione o grupo de segurança que está conectado à instância do replicador.

3.    Verifique se a porta TCP 1500 de entrada é permitida no grupo de segurança conectado.

**Verifique a cota de instantâneos na região de destino **

Verifique se sua conta da AWS não atingiu os limites de cota de instantâneo na região em que você está replicando servidores de origem. Execute o seguinte comando da AWS Command Line Interface (AWS CLI) para verificar se você atingiu a cota de instantâneo na região. No exemplo a seguir, substitua a região pela sua região de destino.

**Observação:**Se você receber erros ao executar comandos da AWS CLI, verifique se está usando a versão mais recente da AWS CLI.

# aws service-quotas get-service-quota --service-code ebs --quota-code L-309BACF6 --region region --query "Quota.Value"  
# aws ec2 describe-snapshots --owner-ids self --region region --query "length(Snapshots)"

Informações relacionadas

Identificação de gargalos de replicação ao usar o AWS Application Migration Service

AWS OFICIAL
AWS OFICIALAtualizada há um ano