Knowledge Center Monthly Newsletter - March 2025
Stay up to date with the latest from the Knowledge Center. See all new and updated Knowledge Center articles published in the last month and re:Post’s top contributors.
¿Cómo soluciono los errores de Xid en mi instancia Linux de EC2 acelerada por la GPU de NVIDIA?
Cuando ejecuto mi aplicación en una instancia de Linux de Amazon Elastic Compute Cloud (Amazon EC2) acelerada por GPU de NVIDIA, mi aplicación se bloquea. Además, recibo errores de Xid específicos de la GPU en el registro del sistema. Quiero recuperar la información de diagnóstico de la GPU y solucionar los errores de Xid relacionados con la GPU.
Solución
Nota: La siguiente resolución soluciona los problemas de los tipos de instancia G4, G5 y G6. Las GPU se transfieren a las instancias invitadas de todas las familias de instancias de EC2 aceleradas por GPU.
Recuperación de los diagnósticos de nvidia-smi
Utilice la herramienta nvidia-smi para recuperar estadísticas y diagnósticos sobre el estado y el rendimiento de las GPU de NVIDIA que están conectadas a su instancia. El controlador de GPU de NVIDIA proporciona automáticamente la herramienta e incluye todas las opciones de imagen de máquina de Amazon de aprendizaje profundo de AWS (DLAMI). Para obtener información sobre cómo instalar el controlador de GPU de NVIDIA para cualquier familia de instancias de GPU, consulte Opciones de instalación.
Para consultar las estadísticas, ejecute el comando sudo nvidia-smi -q.
Ejemplo de estadísticas de memoria:
ECC Errors Volatile # Errors counted since last GPU driver reload SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 0 DRAM Uncorrectable : 0 Aggregate # Errors counted for the life of the GPU SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 0 DRAM Uncorrectable : 0
Todas las generaciones de GPU de NVIDIA registran estadísticas de memoria agregadas y volátiles del hardware de la GPU. Los contadores de errores de ECC agregados persisten durante toda la vida útil de la GPU. Como el valor positivo puede provenir de una emisión anterior, también debe comprobar las métricas volátiles. Los errores de ECC volátiles se incrementan desde cero desde la última vez que se recargó el controlador de la GPU.
Los errores de ECC que no se corrigen aumentan durante la vida útil de la instancia. Sin embargo, puede corregir los errores de ECC. Para restablecer su contador, reinicie la instancia o restablezca la GPU. Según el tipo de instancia y la generación de la GPU, con el reinicio se inicia el retiro de la página o la reasignación de filas para las páginas con mala memoria.
Instancias P3, P3dn, G4dn:
Retired Pages Single Bit ECC : 0 Double Bit ECC : 0 Pending Page Blacklist : No
Las primeras generaciones de GPU de NVIDIA utilizan la retirada dinámica de páginas. Puede ignorar los errores de un solo bit porque, por lo general, no causan problemas.
Si el firmware de la GPU identifica errores de doble bit, la GPU detiene el procesamiento y hace que la aplicación se cierre abruptamente. Si se producen errores de doble bit, el sistema operativo (SO) registra un error de Xid y el estado de Lista negra de páginas pendientes es Sí. Para resolver estos errores, reinicie la instancia para retirar la ubicación de memoria defectuosa. Tras el reinicio, el estado de Lista negra de páginas pendientes se restablece en No.
Nota: Los contadores de errores persisten durante toda la vida útil de la GPU. Un contador distinto de cero al iniciar la instancia no significa que haya un problema de hardware activo o una GPU defectuosa.
Instancias P4d, P4de, G5, G5g y G6:
Remapped Rows Correctable Error : 0 # Can safely ignore. Uncorrectable Error : 0 # If > 0, review system logs for Xid errors Pending : No # If Yes, an instance reboot or GPU reset is required. Remapping Failure Occurred : No # Should always be No. If Yes, please stop/start the instance.
Las familias de instancias posteriores con GPU A100 y A10G aíslan y contienen errores de memoria con una reasignación de filas que impide la reutilización de ubicaciones de memoria degradadas conocidas. La reasignación de filas reemplaza el esquema de retirada de páginas en las GPU de generación anteriores.
Puede ignorar los errores de memoria corregibles. Los errores que no se pueden corregir pueden provocar errores o cierres bruscos de las aplicaciones y se registran en el registro del sistema operativo como errores de Xid.
Cuando un error que no se puede corregir activa las filas reasignadas pendientes, debe restablecer la GPU para retirar la ubicación de memoria defectuosa. Reinicie la instancia para restablecer la GPU. También puede ejecutar el siguiente comando para restablecer manualmente la GPU:
sudo nvidia-smi -i GPU_UUID -r
Nota: Sustituya GPU_UUID por su ID de GPU.
Si se produce un error de reasignación, detenga e inicie la instancia para migrarla a un nuevo host subyacente con una GPU en buen estado.
Nota: AWS realiza diagnósticos periódicos para detectar y reemplazar automáticamente las GPU en mal estado.
Resolución de modos de error
El controlador de GPU de todas las generaciones de GPU de NVIDIA escribe los errores en los registros del sistema operativo como errores de Xid. Para obtener más información sobre estos errores, consulte Errores de Xid en el sitio web de NVIDIA.
Número de GPU incorrecto o faltan GPU
Para ver todas las GPU conectadas, ejecute el siguiente comando:
nvidia-smi --list-gpus | wc -l
En el resultado del comando, compruebe que la cantidad de GPU conectadas coincide con la cantidad esperada de GPU para su tipo de instancia. Si falta una GPU, detenga e inicie la instancia.
También puede utilizar los pasos de solución de problemas anteriores para resolver los siguientes ejemplos de errores de ECC:
- «Xid 48: se ha producido un DBE»
- «Xid 63: se ha retirado correctamente una página»
- «Xid 64: una página no pudo retirarse debido a un error»
NVRM: Xid 79 (PCI:0000:00:00): la GPU se ha caído del bus.
El error Xid 79 se produce cuando la instancia pierde la comunicación con la GPU subyacente. Para resolver este problema, reinicie la instancia. Si el problema persiste después de reiniciar, detenga e inicie la instancia.
ADVERTENCIA: infoROM está dañado en la GPU 0000:00:00.0
El error InfoRoom está dañado se produce cuando una parte del firmware de la GPU está dañada. Para resolver este problema, reinicie la instancia o restablezca la GPU. Si el problema persiste después de reiniciar, detenga e inicie la instancia.
NVRM: Xid 119 (PCI:0000:00:00): Se ha agotado el tiempo de espera para RPC de GSP
Alternativa:
NVRM: Xid 120 (PCI:0000:00:00): error de GSP: la tarea 1 generó un código de error
Los errores anteriores se producen cuando activa el procesador de sistemas de GPU (GSP). Para resolver este problema, desactive el GSP desde el controlador de la GPU o el módulo del núcleo. Para obtener instrucciones sobre cómo desactivar el GSP, consulte 4.2.6. Desactivación del firmware GSP en el sitio web de NVIDIA.
Evitar futuros errores de Xid
Cuando sea posible, utilice el controlador más reciente y la versión ejecutable de CUDA. Las versiones de los controladores de GPU suelen introducir correcciones, mejoras y optimizaciones. Sin embargo, estas actualizaciones pueden contener cambios funcionales. Primero, organice y pruebe las actualizaciones de los controladores en las instancias de GPU que no sean de producción.
Las GPU tienen una velocidad de reloj de núcleo y memoria que cambia dinámicamente según la carga. Para obtener el mejor rendimiento, ajuste constantemente las velocidades del núcleo de la GPU y del reloj de la memoria a sus velocidades máximas.
Desactive GSP. En las generaciones de instancias recientes, las GPU de NVIDIA incluyen la característica de firmware GSP. Para obtener instrucciones sobre cómo desactivar el GSP, consulte 4.2.6. Desactivación del firmware GSP en el sitio web de NVIDIA.
Además, utilice el agente de Amazon CloudWatch para supervisar las métricas de GPU.
Si completa los pasos de solución de problemas anteriores y sigue encontrando errores de Xid, abra un caso de AWS Support. Proporcione el ID de su instancia y el resultado del comando nvidia-smi -q. Además, ejecute el comando sudo nvidia-bug-report.sh que se incluye con el controlador de la GPU de NVIDIA. El script nvidia-bug-report.sh captura los registros clave y otra información de diagnóstico del directorio de trabajo actual. Adjunte el archivo de registro comprimido nvidia-bug-report.log.gz a su caso de soporte.

Contenido relevante
- Como solucionar el error: Supplied Policy document is breaching Cloudwatch Logs policy length limit.Respuesta aceptadapreguntada hace 2 meseslg...
- preguntada hace 2 meseslg...
- Respuesta aceptadapreguntada hace un meslg...
- preguntada hace un meslg...
- preguntada hace 3 meseslg...
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 2 años
- OFICIAL DE AWSActualizada hace 2 años