Comment configurer une tâche AWS Glue entre comptes pour les ressources JDBC ?

Lecture de 5 minute(s)
0

Je souhaite configurer une tâche AWS Glue qui me permette de déplacer des données entre deux magasins de données JDBC. Toutefois, les magasins de données existent dans différents comptes AWS.

Brève description

Pour autoriser le transfert de données entre les magasins de données AWS Glue de différents comptes AWS, vous devez configurer une connexion AWS Glue entre comptes.

Pour configurer une connexion AWS Glue entre comptes, utilisez l'une des méthodes suivantes :

  • Pour les ressources JDBC qui se trouvent dans un sous-réseau privé, utilisez l’appairage du le cloud privé virtuel (VPC).
  • Pour les ressources JDBC accessibles au public, utilisez la passerelle NAT.

Résolution

Utilisation de l’appairage VPC

Si vous utilisez une instance de base de données Amazon Relational Database Service (Amazon RDS) dans une configuration privée, utilisez l’appairage de VPC pour configurer la connexion entre comptes.

Remarque : Pour exiger la spécification du nom d'hôte de la base de données JDBC entre comptes dans l'URL JDBC, activez la résolution DNS pour la connexion d'appairage VPC. Si vous n'activez pas cette option, la connexion AWS Glue échoue car elle ne parvient pas à résoudre le nom d'hôte fourni. La transmission de l'adresse IP privée uniquement n'entraîne pas l'échec de la connexion. Pour plus d'informations, consultez la section Activer la résolution DNS pour une connexion d'appairage VPC.

1.    Créez un appairage VPC entre le compte A et le compte B.

  • Préparez les VPC : les deux VPC doivent appartenir au même compte AWS ou à des comptes différents au sein des organisations AWS. Les VPC doivent se trouver dans la même région AWS et disposer d'espaces d'adresses IP uniques.
  • Demander une connexion d'appairage VPC - Ouvrez le tableau de bord du VPC depuis le VPC du compte B que vous souhaitez appairer avec le VPC du compte A. Sélectionnez Connexions d'appairage, puis sélectionnez Créer une connexion d'appairage VPC. Sélectionnez le VPC du compte A, puis configurez la connexion d'appairage du VPC.
  • Acceptez la demande d’appairage - le propriétaire du compte A reçoit une notification par e-mail de demande d’appairage. Pour accepter la demande, le propriétaire du compte A doit se connecter au compte et accéder au tableau de bord du VPC.
  • Ajouter une route vers le VPC pair - après avoir établi la connexion d'appairage, ajoutez une route vers le VPC pair dans les tables de routage des sous-réseaux de votre VPC. Cette route spécifie la plage d'adresses IP du VPC pair.
  • Tester la connexion - pour tester la connexion, lancez une instance dans chaque VPC. Vérifiez que les instances peuvent communiquer entre elles à l'aide de leurs adresses IP privées.

Remarque : Pour sécuriser la connexion d'appairage du VPC, utilisez des listes de contrôle d'accès réseau (ACL) ou des groupes de sécurité pour restreindre le trafic entre les VPC. De plus, la connexion d'appairage VPC n'autorise pas les instances de différents VPC à utiliser des adresses IP publiques pour communiquer entre elles.

2.    Créez votre connexion AWS Glue. Dans AWS Glue Studio, sélectionnez Créer une connexion. Ajoutez toutes les propriétés de connexion requises et les informations d'accès à la connexion, puis choisissez Créer une connexion.

3.    Dans le groupe de sécurité Amazon RDS, ajoutez une règle à la règle entrante qui autorise l'adresse CIDR IPV4 de votre sous-réseau AWS Glue.

Utilisation de la passerelle NAT

Utilisez cette méthode pour vous connecter à une ressource JDBC accessible au public et pour lire depuis cette ressource à laquelle une adresse IPV4 publique y est associée. Pour ce faire, créez une connexion JDBC avec le sous-réseau privé AWS Glue qui possède une passerelle NAT dans le compte A.

Remarque : Pour que le trafic VPC atteigne la source de données, la passerelle NAT doit être capable d'acheminer le trafic vers la passerelle Internet.

1.    Créez votre connexion AWS Glue. Dans AWS Glue Studio, sélectionnez Créer une connexion. Ajoutez toutes les propriétés de connexion requises et les informations d'accès à la connexion, puis sélectionnez Créer une connexion.

2.    Dans les règles d'entrée du groupe de sécurité de la base de données, autorisez l'adresse IP Elastic de la passerelle NAT du compte A dans le port correspondant de la base de données. Pour Amazon RDS, utilisez 3306. Pour Amazon Redshift, utilisez 5439, et pour Amazon RDS pour PostgreSQL utilisez 5432.

3.    Une fois cette configuration terminée pour les comptes A et B, testez la connexion. Si la connexion est établie, exécutez vos tâches d'extraction, de transformation et de chargement (ETL) dans AWS Glue.

Vérifiez si vous pouvez accéder à la source de données JDBC

Vérifiez si vous pouvez accéder à la source de données JDBC depuis le sous-réseau de la connexion AWS Glue. Lancez une instance Amazon Elastic Compute Cloud (Amazon EC2) avec un accès SSH au même sous-réseau et aux mêmes groupes de sécurité que ceux que vous utilisez pour votre connexion. Connectez-vous ensuite à l'instance via SSH et exécutez les commandes suivantes pour tester la connectivité.

$ dig hostname
$ nc -zv hostname port

Informations connexes

Types de connexion et options pour l'ETL dans AWS Glue

Connexion à un magasin de données JDBC dans un VPC

AWS OFFICIEL
AWS OFFICIELA mis à jour il y a un an