How To Get Bad Records Using AWS Pydeequ - Data Quality Checks

Using AWS Pydeequ in databricks I am performing Data Quality checks. When I run this below mentioned code it provide only metrics results as my output (like Check_level, check_status, constraint, constraint_status, constraint_message). My Question is how can I get the failed records(Bad records) put it in separate dataframe or a table along with metrics(constraint_status, constraint_message) bad data should not process further and split good record put it in separate dataframe to process further ?

Source_DF:

df = spark.read.parquet("s3a://amazon-reviews-pds/parquet/product_category=Electronics/")

Code:

from pydeequ.checks import * from pydeequ.verification import *

check = Check(spark, CheckLevel.Warning, "Review Check")

checkResult = VerificationSuite(spark)
.onData(source)
.addCheck( check.hasSize(lambda x: x >= 3000000)
.hasMin("star_rating", lambda x: x == 1.0)
.hasMax("star_rating", lambda x: x == 5.0)
.isComplete("review_id")
.isUnique("review_id")
.isComplete("marketplace")
.isContainedIn("marketplace", ["US", "UK", "DE", "JP", "FR"])
.isNonNegative("year"))
.run()

checkResult_df = VerificationResult.checkResultsAsDataFrame(spark, checkResult) checkResult_df.display()

Please share any solution or codes to achieve this scenario. That would be helpful.

Temas

Análisis Sin servidor Cálculo Base de datos

Etiquetas

Análisis AWS Data Pipeline AWS Lambda AWS Glue DataBrew Extraer datos de transformación y carga

Idioma

English

Gowtham Siddarth Jagadeesan

preguntada hace 2 años161 visualizaciones

No hay respuestas

Más nuevo
Más votos
Más comentarios

Contenido relevante

Utilizo la AWS CLI, un SDK de AWS o una aplicación para acceder a mi bucket de Amazon S3, pero aparece el error «The AWS Access Key Id you provided does not exist in our records». ¿Por qué?
OFICIAL DE AWSActualizada hace 4 años
¿Cómo soluciono el error «failed to initialize logging driver: failed to create CloudWatch log stream status code: 400» cuando ejecuto un trabajo de AWS Batch?
OFICIAL DE AWSActualizada hace 2 años
¿Cómo puedo resolver el error «The specified queue does not exist or you do not have access to it» cuando ejecuto mi trabajo de AWS Glue para enviar mensajes a Amazon SQS en otra región?
OFICIAL DE AWSActualizada hace 3 años
¿Por qué no puedo ejecutar los comandos de la CLI de AWS en mi instancia de EC2?
OFICIAL DE AWSActualizada hace 2 años