ArticlePDF Available

Uso de inteligencia artificial en la predisposición genética a enfermedad crítica por COVID-19: evaluación comparativa de modelos de aprendizaje automático

Authors:

Abstract

Resumen Objetivos La predicción temprana de enfermedad crítica por COVID-19 es crucial para optimizar el manejo clínico. Este estudio tiene como objetivo optimizar la predicción de enfermedad crítica por COVID-19 mediante la integración de datos clínicos, de laboratorio y polimorfismos genéticos en modelos de inteligencia artificial, evaluando y comparando el rendimiento de distintos algoritmos de aprendizaje automático. Métodos Se analizaron 155 pacientes hospitalizados, 23 de los cuales desarrollaron enfermedad crítica. Se realizó un análisis univariante para evaluar la asociación entre siete SNPs y 9 variables clínicas y 10 parámetros de laboratorio en la analítica al ingreso. Resultados De los 7 SNPS, solo tres SNPs se asociaron significativamente con enfermedad crítica: rs77534576, rs10774671 y rs10490770. Los modelos de ensemble consiguieron el mejor rendimiento: Random Forest (AUC=0,989), XGBoost (AUC=0,954) y AdaBoost (AUC=0,927). La importancia de las variables varió entre los modelos, destacando la edad, proteína C reactiva, cardiopatías y los tres SNPs en la mayoría de ellos. La incorporación de los SNPs mejoró el poder predictivo en comparación con estudios previos sin datos genéticos. La validación interna confirmó la superioridad y estabilidad de los modelos de ensemble. Conclusiones Los modelos de aprendizaje automático pueden ayudar en la predicción por enfermedad crítica por Covid-19. La incorporación de SNPs asociados a gravedad a los datos clínicos y de laboratorio mejora el poder predictivo. Se requieren estudios adicionales con cohortes más grandes y diversas para validar y generalizar estos hallazgos antes de su aplicación clínica.
Salomon Martin Perez*, Flora Sanchez Jimenez, Sandra Fuentes Cantero, Marta Jímenez Barragan,
Catalina Sanchez Mora, Juan M. Borreguero Leon, Teresa Arrobas Velilla, Agustín Valido Morales,
Juan A. Delgado Torralbo y Antonio León-Justel
Uso de inteligencia articial en la predisposición
genética a enfermedad crítica por COVID-19:
evaluación comparativa de modelos de
aprendizaje automático
https://doi.org/10.1515/almed-2024-0129
Recibido 30-08-2024; aceptado 20-02-2025;
publicado en línea 02-04-2025
Resumen
Objetivos: La predicción temprana de enfermedad crítica por
COVID-19 es crucial para optimizar el manejo clínico. Este
estudio tiene como objetivo optimizar la predicción de enfer-
medad crítica por COVID-19 mediante la integración de datos
clínicos, de laboratorio y polimorsmos genéticos en modelos
de inteligencia articial, evaluando y comparando el rendi-
miento de distintos algoritmos de aprendizaje automático.
Métodos: Se analizaron 155 pacientes hospitalizados, 23 de
los cuales desarrollaron enfermedad crítica. Se realizó un
análisis univariante para evaluar la asociación entre siete
SNPs y 9 variables clínicas y 10 parámetros de laboratorio en
la analítica al ingreso.
Resultados: De los 7 SNPS, solo tres SNPs se asociaron sig-
nicativamente con enfermedad crítica: rs77534576,
rs10774671 y rs10490770. Los modelos de ensemble consi-
guieron el mejor rendimiento: Random Forest (AUC=0,989),
XGBoost (AUC=0,954) y AdaBoost (AUC=0,927). La importan-
cia de las variables varió entre los modelos, destacando la
edad, proteína C reactiva, cardiopatías y los tres SNPs en la
mayoría de ellos. La incorporación de los SNPs mejoró el
poder predictivo en comparación con estudios previos sin
datos genéticos. La validación interna conrmó la superio-
ridad y estabilidad de los modelos de ensemble.
Conclusiones: Los modelos de aprendizaje automático
pueden ayudar en la predicción por enfermedad crítica por
Covid-19. La incorporación de SNPs asociados a gravedad a
los datos clínicos y de laboratorio mejora el poder predictivo.
Se requieren estudios adicionales con cohortes más grandes
y diversas para validar y generalizar estos hallazgos antes de
su aplicación clínica.
Palabras clave: aprendizaje automático; COVID-19; enfer-
medad crítica; inteligencia articial; polimorsmos genéti-
cos (SNPs); regresión logística
Introducción
La pandemia de COVID-19 ha tenido un impacto profundo y
duradero en la medicina a nivel mundial, desaando la
capacidad de adaptación de los sistemas de salud y poniendo
de maniesto carencias que habían permanecido inadver-
tidas. Uno de los grandes desafíos es analizar la gran gran
variabilidad en la gravedad de la COVID-19 entre los
pacientes, desde casos leves o asintomáticos hasta indivi-
duos que desarrollan una enfermedad crítica por COVID-19
[1] El riesgo de mortalidad está determinado por una com-
binación de factores, incluyendo la vulnerabilidad a la
infección viral y la propensión a desarrollar una inamación
pulmonar [2]. Cabe destacar que la gravedad ha cambiado
signicativamente según la cepa viral predominante y otros
factores, entre los cuales la inmunización de la población ha
jugado un papel crucial [3].
La inteligencia articial nos ofrece nuevas oportunida-
des y herramientas, desempeñando un papel clave en la
pandemia de COVID-19, con aplicaciones en diagnóstico,
seguimiento, rastreo, desarrollo de fármacos y vacunas, y
reducción de la carga asistencial, facilitando la monitoriza-
ción de la crisis y la investigación [4]. La crisis sanitaria
global fomentó la colaboración cientíca global, generando
*Autor para correspondencia: Salomon Martin Perez, Unidad de
Bioquímica clínica, Hospital Universitario Virgen Macarena, Dr. Fedriani nº3,
Sevilla, España, E-mail: salomon.martin.perez@gmail.com. https://orcid.
org/0000-0002-2086-3597
Flora Sanchez Jimenez, Marta Jímenez Barragan, Catalina Sanchez
Mora, Juan M. Borreguero Leon, Teresa Arrobas Velilla and Antonio
León-Justel, Unidad de Bioquímica clínica, Hospital Universitario Virgen
Macarena, Sevilla, España
Sandra Fuentes Cantero, Servicio Análisis clínicos, Hospital General Rio
Tinto, Huelva, España. https://orcid.org/0000-0003-4125-8625
Agustín Valido Morales and Juan A. Delgado Torralbo, Unidad de
Neumología, Hospital Universitario Virgen Macarena, Sevilla, España
Adv Lab Med 2025; aop
Open Access. © 2025 the author(s), published by De Gruyter. This work is licensed under the Creative Commons Attribution 4.0 International License.
rápidamente datos clave del SARS-CoV-2, incluyendo geno-
mas de referencia [5] y factores genéticos de susceptibilidad.
Diversos proyectos internacionales, como estudios GWAS y
de exoma completo [6, 7] han investigado la variabilidad
interpersonal frente al virus, y se han determinado una serie
de polimorsmos (SNPs) que se asociarían una susceptibili-
dad genética a una mayor gravedad [810].
Con el objetivo de optimizar la predicción de enferme-
dad crítica por COVID-19, se propone el desarrollo de
modelos de aprendizaje automático, incorporando los SNPs
asociados a gravedad, así como datos clínicos y de labora-
torio haciendo un estudio comparativo entre ellos. Primero
se analizará la asociación de los SNPs candidatos con la
enfermedad y solo aquellos signicativamente asociados se
incorporarán a los modelos. Además se evaluará la impor-
tancia de las variables asociadas en cada modelo con el nde
determinar el papel de los SNPs en cada predicción y estu-
diar la inuencia de estos polimorsmos en la predicción.
Materiales y métodos
En el presente estudio se incluyeron pacientes que acudie-
ron al servicio de Urgencias del Hospital Universitario Vir-
gen Macarena de Sevilla mayores de 18 años y tuvieron
diagnóstico conrmado de COVID-19 mediante RT-PCR
(reacción en cadena de la polimerasa con transcriptasa
inversa) en el dispositivo Xpert®Xpress SARS-CoV-2 de la
empresa Cepheid entre mayo de 2020 y enero de 2021. Las
muestras fueron recolectadas por el Biobanco del hospital
con el consentimiento especíco de los pacientes para el uso
de su material genético y proporcionadas al laboratorio para
el análisis de los SNPs. Este estudio cuenta con la aprobación
del comité de ética e investigación clínica.
Lavariabledeestudiodenida como enfermedad crítica
por COVID-19 se reere a la ocurrencia de al menos uno de los
siguientes eventos durante la hospitalización: ingreso en la
unidad de cuidados intensivos (UCI), necesidad de ventilación
invasiva o fallecimiento. Esta denición, fundamentada en
investigaciones previas sobre resultados graves de COVID-19, se
utilizócomounavariablecategórica(sí/no)paranuestro
resultado principal [11, 12]. Esta información se extrajo de la
revisión de la historia clínica electrónica de cada paciente.
Para la creación de los modelos se usaron datos clínicos,
datos de laboratorio y datos de SNPs. Los datos clínicos se
extrajeron de los registros médicos electrónicos, incluyendo
variables dicotómicas (sexo, hallazgos radiológicos pulmona-
res,quesedenencomoimágenessugerentesdealteración
pulmonar en radiografía/TC, cardiopatías, hipertensión, dia-
betes, enfermedades autoinmunes, incluyendo lupus, artritis
reumatoide, psoriasis y miastenia gravis, tabaquismo e
Infecciones respiratorias previas, registradas en el mes ante-
rior al ingreso y una variable continua (edad). Las variables
analíticas continuas, obtenidas de la primera determinación al
ingreso, comprenden: proteína C reactiva, creatina quinasa,
creatinina, D-dímero, recuento de linfocitos, alanina amino-
transferasa, plaquetas, urea, hemoglobina y lactato.
Se realizó un análisis de datos faltantes en las variables
de laboratorio al ingreso y se imputaron los valores ausentes
utilizando la mediana de cada variable antes de los análisis
estadísticos.
Los SNPs incluidos fueron: rs10490770, ubicado cerca de
los genes LZTFL1 y LOC107986083 en el cromosoma 3 [13, 14];
rs10774671, en el gen OAS1 del cromosoma 12; rs77534576, entre
los genes del cromosoma 17 [13, 14]; rs2109069, en el gen DPP9
del cromosoma 19 [15, 16]; rs74956615, cerca de los genes FDX2 y
RAVER1 en el cromosoma 19 [17]; y rs2834158, en el gen IFNAR2
del cromosoma 21 [6, 18], todos ellos incluidos en el estudio
PreMed-Covid19 [19]. A esta selección, nuestro añadimos el SNP
rs35705950, localizado en el gen MUC5B del cromosoma 11 [20].
El análisis de los polimorsmos se llevó a cabo una vez
recolectadas todas las muestras, las cuales fueron entregadas
congeladas al laboratorio. Se realizó inicialmente la extracción
de ADN a partir de sangre periférica. El estudio de las variantes
genéticas se llevo a cabo en el analizador Cobas Z 480 (Roche
Diagnostics GmbH) mediante PCR en tiempo real. Se evaluó la
asociación entre polimorsmos y la enfermedad crítica, ana-
lizandocadaunodeformaindividual usando regresión logís-
tica. Se consideraron cuatro modelos posibles de herencia
genética: dominante, recesivo, aditivo y codominante. Se veri-
el cumplimiento del equilibrio de Hardy-Weinberg
mediante una prueba de chi-cuadrado antes del análisis de
regresión logística. Los genotipos se codicaron según cada
modelo de herencia. Para cada SNP el modelo más adecuado se
determinó comparando el ajuste del modelo codominante con
los otros modelos, usando la prueba de razón de verosimilitud y
el criterio de información de Akaike. Finalmente se estableció
un umbral de p<0,20 para incluir SNPs en modelos predictivos.
Todos los modelos utilizaron la totalidad de las variables
disponibles. En los modelos de aprendizaje automático, la
selección de variables se realizó automática. Sin embargo, en
el modelo de regresión logística, la selección de variables se
basó en criterios estadísticos.
Modelo de regresión logística
Se comenzó con una transformación de las variables numé-
ricas en binarias (edad, hemoglobina, plaquetas, linfocitos,
dímeros, urea, creatinina, lactato deshidrogenasa, alanina
transaminasa, creatina quinasa y proteína C reactiva), para
facilitar la interpretación clínica y la aplicabilidad práctica,
2Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad
permitiendo establecer puntos de corte claros para la toma de
decisiones, utilizando análisis basados en curvas ROC y el
estadístico de Youden para establecer los puntos de corte
óptimos. Se evaluó la multicolinealidad entre las variables
predictoras utilizando el Factor de Inación de la Varianza
(VIF). Las variables con un VIF mayor a 5 fueron excluidas. Se
realizo un análisis univariante para evaluar la asociación
individual de cada variable predictora con la variable objetivo.
Se ajustaron modelos de regresión logística univariantes para
cada variable. Se incluyeron en el modelo de regresión logística
multivariable aquellas variables con una prevalencia de al
menos 5 % y aquellas con un valor p bilateral <0,20 en el aná-
lisis univariante.
Modelos de aprendizaje automático
En el preprocesamiento de datos, las variables numéricas
continuas se normalizaron utilizando la clase StandardScaler
de scikit-learn, que implementa la normalización Z-score. En el
preprocesamiento se dividió el conjunto de datos en 80 % para
entrenamiento y 20 % para prueba y se aplicó SMOTE para
equilibrar las clases al conjunto de datos de entrenamiento.
Para evaluar la robustez y estabilidad de los modelos, se rea-
lizaron dos validaciones internas complementarias: una vali-
dación cruzada de 5 pliegues (k-fold) y una validación bootstrap
con 1,000 iteraciones para evaluar la robustez y estabilidad
mediante remuestreo con reemplazo.
El análisis estadístico se realizó con Python 3.8, utili-
zando pandas 1.2.4 para el manejo de datos, scikit-learn
0.24.2 para los modelos predictivos y métricas de evaluación,
imbalanced-learn 0.8.0 para el balanceo de clases mediante
SMOTE, xgboost 1.4.2 para el modelo XGBoost, statsmodels
0.12.2 para el análisis estadístico y matplotlib 3.4.2 para la
visualización de resultados.
Se evaluaron seis modelos, aportando cada uno estrategias
diferentes: KNN clasica según la similitud con datos vecinos;
Random Forest combina árboles de decisión para mejorar
precisión y reducir sobreajuste; AdaBoost ajusta pesos de ins-
tancias mal clasicadas; XGBoost destaca por su alto rendi-
miento con árboles potenciados por gradiente; SVM con kernel
de base radial busca el hiperplano óptimo para separar clases;
y Naive Bayes utiliza el teorema de Bayes asumiendo inde-
pendencia entre características. Se usó GridSearchCV en la
cohorte de entrenamiento para optimizar los hiperparámetros.
Evaluación de modelos
El rendimiento de cada modelo se evaluó utilizando varias
métricas, siendo la principal el área bajo la curva ROC (AUC),
que mide la capacidad del modelo para distinguir entre las
diferentes clases. Las métricas adicionales incluyeron
exactitud (proporción de predicciones correctas), precisión
(verdaderos positivos entre predicciones positivas), sensi-
bilidad (verdaderos positivos entre casos realmente positi-
vos), y el puntaje F1 (media armónica de precisión y
sensibilidad). También se analizó la importancia de cada
variable en cada modelo, mediante un método de permu-
tación que mide el impacto en el rendimiento del modelo al
alterar aleatoriamente cada variable. Los valores se nor-
malizaron a porcentajes para permitir comparaciones entre
modelos. Para la regresión logística, se utilizaron los coe-
cientes del modelo para cuanticar la inuencia de cada
variable predictora en el resultado.
Resultados
La cohorte del estudio incluyó un total de 155 pacientes
hospitalizados, de los cuales 23 evolucionaron hacia una
enfermedad crítica. Las variables analizadas se clasicaron
en dos categorías: numéricas y dicotómicas. Se encontraron
datos faltantes en las siguientes variables de laboratorio:
creatina quinasa (CK) con 12 valores (7,79 %), dímeros D y
lactato deshidrogenasa (LDH) con 4 valores cada uno
(2,60 %), y proteína C reactiva (PCR) con 1 valor (0,65 %) que
fueron imputados por la mediana de los datos.
En la Tabla 1 se presentan las variables dicotómicas
analizadas. Los alelos rs77534576, rs10490770 y rs10774671
fueron más frecuentes en pacientes críticos, con porcentajes
de 17,4 %, 34,8% y 21,7 % respectivamente, en comparación
con 4,5 %, 18,9 % y 9,8 % en los no críticos. Además, la
Tabla :Distribución de variables dicotómicas.
Variable dicotómica General
(n=)
Enf. crítica
(n=)
Sin enf. crítica
(n=)
rs  (,%) (,%) (,%)
rs  (,%) (,%)  (,%)
rs  (,%) (,%)  (,%)
Infección (,%) (,%) (,%)
Enfermedad autoinmune (,%) (%) (,%)
Hipertensión  ( %)  (,%)  (,%)
Diabetes  (,%) (,%)  (,%)
Enfermedad cardiaca  (,%) (,%)  (,%)
Fumador  (,%) ( %)  (,%)
Ingreso en planta  (,%)  (,%)  (,%)
Hallazgos radiológicos  (,%)  (,%)  (,%)
La Tabla muestra el conteo y porcentaje de pacientes con características
especícas en tres grupos: el grupo general (n=), pacientes con
enfermedad (Enf.) crítica (n=), y pacientes sin enfermedad crítica (n=).
Los porcentajes se calculan en función del total de cada grupo.
Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad 3
hipertensión y la enfermedad cardiaca fueron más comunes
en el grupo crítico, con un 60,9 % y 39,1 % respectivamente,
frente a un 36,4 % y 18,2 % en los no críticos. El 73,9 % de los
pacientes críticos ingresaron en planta, frente al 81,8 % de
los no críticos, ya que muchos críticos fueron directamente a
cuidados intensivos. Otras variables como la infección,
enfermedad autoinmune, diabetes, ser fumador, y hallazgos
radiológicos no mostraron diferencias tan marcadas entre
los grupos.
La Tabla 2 presenta las variables numéricas analizadas.
La edad mediana fue mayor en pacientes críticos (69 vs. 58
años). Los niveles de hemoglobina fueron similares (14,6 g/
dL) en ambos grupos, con valores mínimos más bajos en
críticos (12,7 vs. 13,5 g/dL). El conteo de plaquetas fue lige-
ramente superior en los críticos (239 vs. 221 ×103/µL). Los
niveles de dímeros y creatinina también fueron más altos en
pacientes críticos (585 vs. 486 ng/mL y 1 vs. 0,9 mg/dL, res-
pectivamente). La lactato deshidrogenasa mostró valores
ligeramente mayores en los críticos (296 vs. 275 U/L), mien-
tras que la creatina quinasa fue notablemente más elevada
en este grupo (111,5 vs. 75,5 U/L). Los niveles de proteína C
reactiva fueron signicativamente más altos en pacientes
críticos (79 vs. 50,7 mg/L). Los niveles de urea y linfocitos
mostraron valores similares entre grupos. Se mantuvieron
en el análisis ya que en nuestro estudio previo [11] estas
variables presentaron diferencias más marcadas entre los
grupos.
Análisis de polimorsmos
Solo tres SNPs fueron seleccionados para incluirlos en los
modelos predictivos. Esta selección se basó en un análisis
exhaustivo que incluyó el equilibrio de HW y la comparación
de modelos de herencia.
El análisis del equilibrio de HW, mostrado en la Tabla
Suplementaria 1, reveló que seis de los siete polimorsmos
estudiados cumplen con este equilibrio tanto en casos como
en controles. Estos son: rs2834158, rs35705950, rs74956615,
rs2109069, rs77534576 y rs10490770. Sus valores de chi-
cuadrado oscilan entre 0,01 y 2,46, con p-valores superiores a
0,05, lo que indica que no hay diferencias signicativas entre
las frecuencias alélicas esperadas y las observadas. Sin
embargo, el polimorsmo rs10774671 mostró una desviación
signicativa del equilibrio de HW en el grupo de casos
(χ2=7,99, p=0.005), mientras que se mantuvo en equilibrio en
el grupo de controles (χ2=1,86, p=0,173).
Tras comparar cada modelo de herencia con el modelo
codominante (Tabla Suplementaria 2), se identicaron tres
SNPs que cumplen con el criterio de p<0,20 para su inclusión
en los modelos predictivos. Estos son: rs77534576, para el
cual se seleccionó un modelo de herencia aditivo; rs10774671,
que mostró un mejor ajuste con un modelo codominante, y
rs10490770, también con un modelo aditivo.
Modelos
Los modelos de aprendizaje automático superaron en
general a la regresión logística en la predicción de enfer-
medad crítica por COVID-19. En la Figura 1 se muestran las
curvas ROC de cada modelo, donde podemos apreciar que los
modelos de ensamble, como Random Forest (AUC=0,98),
AdaBoost (AUC=0,87) y XGBoost (AUC=0,91), tendieron a
mostrar un rendimiento superior en términos de AUC
comparados con los modelos individuales. Estos últimos
incluyen KNN (AUC=0,84), SVM (AUC=0,36), Naive Bayes
(AUC=0,83) y Regresión Logística (AUC=0.88).
La Tabla 3 muestra todas las métricas, siendo el área
bajo la curva ROC (AUC) la medida principal de evaluación.
Tabla :Distribución de variables numéricas.
Variable númerica General (n=) Enf. crítica (n=) Sin enf. crítica (n=)
Edad, años ,[] [,] []
Hemoglobina, g/dL ,[,,],[,,],[,,]
Plaquetas, ×/µL  [,] [,] [,]
Linfocitos, ×/µL ,[,,],[,],[,,]
Dimeros, ng/mL  [,,] [,] []
Urea, mg/dL  [] [] []
Creatinina, mg/dL ,[,,][,,],[,,]
Lactato deshidrogenasa, U/L  [,] [,] [,]
Alanina transaminasa, U/L  [] [,,] [,]
Creatina quinasa, U/L  [],[,],[,]
Proteina C reactiva, mg/L ,[,,] [,,],[,,]
La Tabla presenta la mediana y el rango intercuartílico (Q-Q) de diversas variables numéricas en tres grupos de pacientes: el grupo general (n=),
pacientes con enfermedad (Enf.) crítica (n=), y pacientes sin enfermedad crítica (n=).
4Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad
Random Forest se destacó como el modelo más ecaz entre
todos los algoritmos, logrando el AUC más alto (0,989), tam-
bién obtuvo la mayor exactitud (90,6 %), la segunda mejor
precisión (92,3 %), una alta sensibilidad (88,9 %) y el F1-score
más elevado (0,906), superando signicativamente a la
regresión logística tradicional en todas las métricas. XGBoost
logró el segundo mejor AUC con 0,954 y la precisión más alta,
alcanzando un 95,2 %. Sin embargo, su sensibilidad fue del
74,1 %, inferior a la de Random Forest. Su exactitud fue del
84,9 % y su F1-score de 0,833, ambos los segundos mejores
después de Random Forest. Por otro lado, AdaBoost obtuvo el
tercer mejor AUC con 0,927, presentando una exactitud del
81,1 %, una precisión del 87,0 %, una sensibilidad del 74,1 % y
un F1-score de 0,800.
El modelo de regresión logística tras aplicar VIF incluyó las
siguientes variables: edad (65 años), los marcadores genéticos
rs10774671, rs10490770 y rs77534576, presencia de cardiopatías,
hipertensión arterial, y los parámetros analíticos: recuento de
linfocitos (1,94 ×103/µL), niveles de creatina quinasa
(102 U/L), proteína C reactiva (62,50 mg/L), dímeros D
(942 ng/mL), creatinina (1,06 mg/dL), lactato deshi-
drogenasa (296 U/L) y urea (27 mg/dL). A pesar de lograr la
segunda mejor exactitud (87,7 %), obtuvo un AUC de 0,881,
inferior a los tres modelos de ensamble mencionados. Ade-
más, presentó la sensibilidad más baja (26,1 %) y el F1-score
más bajo (0,387) entre todos los modelos, aunque su preci-
sión (75 %) fue moderada.
Los modelos restantes mostraron resultados variados.
Naive Bayes alcanzó un AUC de 0,830, con la segunda mejor
sensibilidad (88,8 %) después de SVM, pero con una precisión
más baja (68,5 %). KNN obtuvo un AUC de 0,823, con una
sensibilidad alta (85,2 %) pero la segunda precisión más baja
(63,9 %). SVM, a pesar de tener la sensibilidad más alta
(92,5 %), mostró el AUC más bajo (0,559) y la exactitud más
baja (50,9 %), lo que sugiere un posible sobreajuste a la clase
positiva.
El análisis de la importancia de las variables para los
modelos de aprendizaje automático (Tabla 4) y el modelo de
regresión logística (Tabla 5, Figura Suplementaria 1) reveló
diferencias interesantes entre los modelos. Random Forest
Figura 1: Curvas ROC comparativas de los
diferentes modelos. Curvas ROC comparativas
de diferentes modelos de aprendizaje
automático. La gráca muestra la tasa de
verdaderos positivos frente a la tasa de falsos
positivos para cada modelo. El área bajo la
curva (AUC) es una medida de la capacidad del
modelo para distinguir entre clases, en este
caso, enfermedad crítica por COVID-19.
Tabla :Métricas de modelos.
Modelo Exactitud Precisión Sensibilidad F-score AUC VP FP FN VN Total
Random Forest , , , , ,   
XGBoost , , , , ,   
AdaBoost , , , , ,   
Logistic Regression , , , , ,   
Naive Bayes , , , , ,    
KNN , , , , ,    
SVM , , , , ,     
Métricas para varios modelos de clasicación evaluados en términos de exactitud, precisión, sensibilidad, F-score, área bajo la curva (AUC) y valores de la
matriz de confusión (VP, FP, FN, VN). Los modelos evaluados son KNN, Random Forest, AdaBoost, XGBoost, SVM, Naive Bayes y Regresión Logística.
Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad 5
identi el polimorsmo rs10774671 (14,14 %), las plaquetas
(12,12 %), y los polimorsmos rs77534576 (10,10 %) y
rs10490770 (7,07 %) como las variables más importantes.
XGBoost destacó la presencia de cardiopatías (37,25 %), la
creatina quinasa (11,76 %) y la proteína C reactiva (10,46 %)
como los predictores más relevantes. AdaBoost priorizó la
proteína C reactiva (14,59 %), los dímeros D (11,35 %) y el
hallazgo radiológico (10,81 %). KNeighbors dio mayor
importancia a los dímeros D (54,10 %), las plaquetas (17,21 %)
y la alanina aminotransferasa (9,84 %). SVM mostró una
fuerte preferencia por los dímeros D (81,82 %), seguidos por
el lactato deshidrogenasa (13,64 %). Naive Bayes consideró la
edad (9,14 %), la hipertensión y la alanina aminotransferasa
(8,60 % cada una) como los factores más inuyentes. Final-
mente, la regresión logística identi la edad 65 años
(13,59 %), el polimorsmo rs10774671 (12,80 %) y los linfocitos
1,94 (10,65 %) como los factores más importantes.
Los SNPs mostraron una importancia variable según el
modelo. El polimorsmo rs10774671 fue especialmente
importante para Random Forest (14,14 %) y la regresión
logística (12,80 %). El rs77534576 destacó en Random Forest
(10,10 %) y tuvo una importancia moderada en la regresión
logística (7,68 %). Por su parte, el rs10490770 mostró una
importancia moderada tanto en Random Forest (7,07 %)
como en la regresión logística (8,71 %).
Tabla :Porcentaje de importancia de variables por modelo de IA.
Variable Random Forest, % KNeighbors, % AdaBoost, % XGBoost, % SVM, % Naive Bayes, %
Edad , , , , , ,
Proteína C reactiva , , , , , ,
Cardiopatías , , , , , ,
Hipertensión , , , , , ,
Creatina quinasa , , , , , ,
rs , , , , , ,
Creatinina , , , , , ,
Dímeros D ,  , , , , ,
Linfocitos , , , , , ,
Alanina aminotransferasa , , , , , ,
Plaquetas , , , , , ,
Urea , , , , , ,
Hemoglobina , , , ,  ,
rs , , , , , ,
Lactato deshidrogenasa , , , , , ,
Diabetes , , , , , ,
rs , , , , , ,
Sexo (hombre) , , , , , ,
Radiológico , , , , , ,
Planta , , , , , ,
Fumador , , , , , ,
Infección , , , , , ,
Autoinmune , , , , , ,
Esta Tabla muestra la importancia relativa de cada variable en los modelos Random Forest, K-Neighbors, AdaBoost, XGBoost, SVM y Naive Bayes.
Tabla :Porcentaje de importancia de variables en el modelo de
regresión logística.
Variable Coeciente Importancia,
%
Odds
Ratio
Valor
p
Edad (), , , <,
Gen (rs), , , ,
Linfocitos (,), , , ,
Creatina quinasa (), , , ,
Proteína C reactiva
(,)
, , , ,
Gen (rs), , , ,
Gen (rs), , , ,
Cardiopatías , , , ,
Hipertensión , , , ,
Dímeros D (), , , ,
Creatinina (,), , , ,
Lactato deshidrogenasa
()
, , , ,
Urea (), , , ,
Esta Tabla muestra la importancia relativa de cada variable en el modelo de
regresión logística. Las variables numéricas incluyen el punto de corte
establecido. La columna Coeciente representa la magnitud y dirección de
la asociación entre la variable y el resultado, la columna Importancia (%)
indica la contribución relativa de cada variable en el modelo, el Odds Ratio
muestra la razón de probabilidades entre casos y controles, y el Valor p
indica la signicación estadística de la asociación. Se selección un punto de
corte de p<,, para su inclusión en el modelo.
6Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad
Validación interna
La validación interna mediante bootstrapping con 1,000
iteraciones reveló mejoras generalizadas en comparación
con los resultados originales (Tabla Suplementaria 3). El
modelo de Random Forest mantuvo su posición de liderazgo,
con una exactitud de 95,6 % ±3,0 % y AUC de 0,994 ±0,008,
seguido de cerca por los modelos XGBoost y AdaBoost, que
mostraron mejoras signicativas respecto a la modelo inicial
(94,4 % ±3,6 % y 93,2 % ±3,8 % respectivamente). KNN
también experimentó un aumento sustancial (80,6 % ±
5,8 %), mientras que la Regresión Logística mantuvo un
rendimiento similar pero con alta variabilidad en precisión
y sensibilidad. Naive Bayes mostró estabilidad, y SVM, aun-
que mejoró ligeramente, reveló un rendimiento inestable.
En general, los modelos de ensemble demostraron superio-
ridad y mayor estabilidad.
Discusión
El principal hallazgo de este estudio es que los modelos de
inteligencia articial mejoran el poder predictivo de enfer-
medad critica por COVID-19 respecto al modelo de regresión
logística clásica. Particularmente los modelos de tipo
ensemble fueron superiores, obteniendo mejor rendimiento
el modelo de Random Forest con un AUC de 0.989, seguido de
XGBoost con 0,954 y de AdaBoost con 0,927 respecto a la
Regresión Logística con 0,881. Los modelos han revelado
patrones distintivos en la predicción de COVID-19 crítico,
donde cada algoritmo enfatiza diferentes aspectos predicti-
vos. En Random Forest, valores elevados de plaquetas y la
presencia de los polimorsmos rs10774671, rs77534576 y
rs10490770 incrementan el riesgo de enfermedad crítica, con
pesos de importancia del 12,12 %, 14,14 %, 10,10 % y 7,07 %
respectivamente. XGBoost señala que la presencia de car-
diopatías es el predictor más fuerte (37,25 %), seguido por
niveles elevados de creatina quinasa (11,76 %) y proteína C
reactiva (10,46 %). AdaBoost identica que mayores niveles
de proteína C reactiva (14,59 %) y dímeros D (11,35 %)
orientan hacia un mayor riesgo. La consistencia en la iden-
ticación de estos factores a través de múltiples modelos,
especialmente los SNPs y marcadores inamatorios,
refuerza su validez como predictores robustos de COVID-19
crítico, aunque su peso relativo varía según el algoritmo
empleado.
En la evaluación de la predisposición genética, solo tres
SNPs de los siete se asociaron con enfermedad critica por
COVID-19 en nuestra cohorte de pacientes (rs77534576,
rs10774671 y rs10490770). Todos los modelos a excepción de
SVM y KNN, identicaron los SNPs como factores signica-
tivos, si bien su importancia relativa varió entre ellos.
Los modelos de ensemble, como Random Forest, Ada-
Boost y XGBoost, demostraron un rendimiento sobresa-
liente, reforzando su idoneidad para este tipo de tarea
predictiva al capturar patrones sutiles cruciales para iden-
ticar pacientes en riesgo. Sorprendentemente, el modelo
KNN, pese a su simplicidad, logró un desempeño respetable.
Por otro lado, la Regresión Logística, aunque presentó una
alta exactitud global, mostró una baja sensibilidad. Sin
embargo, su interpretabilidad sigue siendo una ventaja
signicativa en entornos médicos.
La incorporación de SNPs asociados a gravedad mejora
la predicción de enfermedad crítica por COVID-19. En un
estudio previo de nuestro grupo [11] sobre enfermedad crí-
tica por COVID-19 sin incorporar los SNPs, el modelo de
regresión logística mostró una AUC de 0,850. En contraste, el
modelo de regresión actual, que incluye los SNPs, ha mejo-
rado a una AUC de 0,881. Estas mejoras sugieren que la
inclusión de datos genéticos ha incrementado la capacidad
predictiva del modelo.
El análisis del equilibrio de Hardy-Weinberg mostró
que, con la excepción de rs10774671 en el grupo de casos,
todos los SNPs cumplieron con el equilibrio tanto en casos
como en controles, lo que respalda la validez de nuestros
hallazgos genéticos. De los siete SNPs analizados, tres tenían
signicancia estadística con la enfermedad crítica por
COVID-19: rs77534576, rs10774671 y rs10490770. Para
rs77534576 y rs10490770, se identi un modelo de herencia
aditivo como el más apropiado, sugiriendo un efecto acu-
mulativo de cada alelo variante en el riesgo de enfermedad
grave. Esto es consistente con los hallazgos de Yi Lin et al.
[21], donde el rs77534576 fue uno de los SNPs asociado a
hospitalizaciones y síntomas respiratorios muy severos
debido al COVID-19. Para rs10774671, nuestro análisis favo-
reció un modelo codominante, indicando efectos distintos
para cada genotipo. Este resultado se alinea con estudios
previos, como el de El Youset al. [13] y Human et al. [14],
que han destacado el papel protector del alelo G de
rs10774671 contra la enfermedad grave por COVID-19.
Observamos una desviación del equilibrio de Hardy-
Weinberg para rs10774671, habiéndose identicado una
menor proporción relativa de individuos con el alelo pro-
tector en nuestra población de casos con respecto a los
controles. Respecto a rs10490770, nuestros hallazgos res-
paldan su relevancia en la predicción de la gravedad de
COVID-19, en línea con el estudio de Nakanishi et al. [22],
aunque contrastan con los resultados no signicativos
reportados por Prajjval P et al. [23] en población india. Estas
discrepancias subrayan la importancia de considerar la
diversidad genética entre poblaciones en la interpretación
Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad 7
de los resultados. Respecto al rs35705950, no fue signicativo
en contraste con. Van Moorsel et al. que demostraron que el
alelo T de MUC5B rs35705950 conere protección contra
COVID-19 grave [20].
En el análisis comparativo sobre la importancia de cada
variable destacamos que variables como la edad, los niveles
de Proteína C Reactiva, la existencia de cardiopatías y los tres
SNPs (rs10490770, rs10774671 y rs77534576) aparecen como
relevantes en todos los modelos a excepción de SVM y KNN,
aunque su importancia relativa varía. La diversidad en la
importancia de las variables entre los modelos subraya la
complejidad del problema y sugiere que un enfoque que
combine múltiples modelos podría proporcionar una com-
prensión más robusta de los factores predictivos. La identi-
cación de estos marcadores genéticos no solo mejora
nuestra comprensión de los mecanismos subyacentes a la
susceptibilidad al COVID-19 grave, sino que también abre
nuevas vías para la medicina personalizada en el manejo de
la pandemia.
La integración de estos factores genéticos en modelos
predictivos, junto con variables clínicas y de laboratorio,
representa un avance signicativo hacia una estraticación
del riesgo más precisa y personalizada. Sin embargo, es
crucial reconocer que la predisposición genética es solo una
pieza del rompecabezas, y su interpretación debe conside-
rarse en el contexto más amplio de factores ambientales,
comorbilidades y la respuesta inmune individual. Las dife-
rencias en la importancia de las variables entre los modelos
subrayan la necesidad de considerar múltiples enfoques
para obtener una comprensión más completa del problema.
El estudio presenta limitaciones como el reducido tamaño
de la muestra de 155 pacientes, lo que puede llevar a sobrea-
juste en modelos complejos, esto ocurre debido a la des-
proporción entre el número de observaciones y predictores del
modelo, lo que provoca que éste se ajuste al ruido especíco de
la muestra en lugar de capturar las verdaderas relaciones
poblacionales. Además, no se especi si los valores analíticos
iniciales correspondían al momento del ingreso en Urgencias o
en UCI, lo que podría inuirenlainterpretacióndelosresul-
tados debido a la evolución temporal de los biomarcadores.
Aunque se usaron cnicas como la validación cruzada para
mitigar estos problemas, es esencial validar tanto interna
como externamente los hallazgos en cohortes s grandes y
diversas antes de su aplicación clínica. Además, la limitada
bibliografía sobre metodologías especícas para asociar SNPs
con variables concretas o establecer el tipo de modelo de
dominancia representa un desafío metodológico común en
estudios de asociación genética.
Nuestro estudio destaca la superioridad de los algo-
ritmos de aprendizaje automático, especialmente los
modelos de tipo ensemble, en la predicción de enfermedad
crítica por COVID-19. La incorporación de SNPs a las varia-
bles clínicas y analíticas mejora el poder predictivo. De los
siete SNPs analizados, tres mostraron signicancia esta-
dística con la enfermedad crítica por COVID-19: rs77534576,
rs10774671 y rs10490770, integrándose en los algoritmos y
sugiriendo una predisposición genética a sufrir enfermedad
crítica por COVID-19. Se recomienda la realización de estu-
dios adicionales con cohortes más grandes y diversas para
validar y extrapolar estos resultados, incluyendo una vali-
dación externa en poblaciones independientes.
Agradecimientos: Queremos agradecer especialmente a los
pacientes y al Biobanco Nodo Hospital Virgen Macarena
(Biobanco del Sistema Sanitario Público de Andalucía),
integrado en la Red Nacional de Biobancos de España (PT23/
00069) y apoyado por fondos del ISCIII y FEDER, por su
colaboración en este trabajo. Agradecemos la nanciación
recibida a través de la Ayuda para profesionales jóvenes
para tesis doctoral 2023, para el desarrollo del proyecto de
investigación Inteligencia articial en susceptibilidad
genética al Covid-19 grave. Agradecemos el uso de herra-
mientas de inteligencia articial basadas en Python 3.8,
incluyendo las bibliotecas pandas 1.2.4, scikit-learn 0.24.2,
imbalanced-learn 0.8.0 (SMOTE), xgboost 1.4.2, statsmodels
0.12.2 y matplotlib 3.4.2, que han sido fundamentales para el
análisis de datos, desarrollo de modelos predictivos y
visualización de resultados de este estudio.
Aprobación ética: El estudio se realizó de conformidad con
la Declaración de Helsinki (revisada en 2013).
Consentimiento informado: Todos los individuos incluidos
en este estudio, o sus tutores legales o pupilos han otorgado
su consentimiento explícito.
Contribución de los autores: Todos los autores han aceptado
la responsabilidad de todo el contenido de este manuscrito y
han aprobado su presentación.
Uso de grandes modelos lingüísticos, IA y herramientas de
aprendizaje automático: Ninguno declarado.
Conicto de intereses: Todos los demás autores declaran no
tener ningún conicto de intereses.
Financiación del proyecto: Este artículo ha sido nanciado
con una beca de la SEQCML o de la Fundación José Luis
Castaño-SEQC.
Disponibilidad de los datos: No procede.
Referencias
1. Halacli B, Yildirim M, Kaya EK, Ulusoydan E, Ersoy EO, Topeli A. Chronic
critical illness in critically ill COVID-19 patients. Chron Illn 2024;20:8695.
2. Wu F, Zhao S, Yu B, Chen YM, Wang W, Song ZG, et al. A new coronavirus
associated with human respiratory disease in China. Nature 2020;579:
2659.
8Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad
3. Martinón-Torres F. Vacunación pediátrica frente al COVID-19 y a pesar
del COVID-19. An Pediatr (Barc) 2022;96:47.
4. Vaishya R, Javaid M, Khan IH, Haleem A. Articial Intelligence (AI)
applications for COVID-19 pandemic. Diabetes Metab Syndr 2020;14:
3379.
5. Ganna A. The COVID-19 Host Genetics Initiative, a global initiative to
elucidate the role of host genetic factors in susceptibility and severity of
the SARS-CoV-2 virus pandemic. Eur J Hum Genet 2020;28:7158.
6. Pairo-Castineira E, Clohisey S, Klaric L, Bretherick AD, Rawlik K, Pasko D,
et al. Genetic mechanisms of critical illness in COVID-19. Nature 2021;
591:928.
7. Ellinghaus D, Degenhardt F, Bujanda L, Buti M, Albillos A, Invernizzi P,
et al. Genomewide association study of severe covid-19 with respiratory
failure. N Engl J Med 2020;383:152234.
8. COVID-19 Host Genetics Initiative, Karjalainen J, Liao RG, Neale BM,
Daly M, Ganna A, et al. Mapping the human genetic architecture of
COVID-19. Nature 2021;600:4727.
9. COVID-19 Host Genetics Initiative, Karjalainen J, Stevens C, Neale BM,
Daly M, Ganna A, et al. A rst update on mapping the human genetic
architecture of COVID-19. Nature 2022;608:E110.
10. Ferreira LC, Gomes CEM, Rodrigues-Neto JF, Jeronimo SMB. Genome-
wide association studies of COVID-19: connecting the dots. Infect Genet
Evol 2022;106:105379.
11. Martin S, Fuentes S, Sanchez C, Jimenez M, Navarro C, Perez H, et al.
Development and validation of a laboratory-based risk score to predict
the occurrence of critical illness in hospitalized patients with COVID-19.
Scand J Clin Lab Invest 2021;81:2829.
12. Guan WJ, Ni ZY, Hu Y, Liang WH, Ou CQ, He JX, et al. Clinical
characteristics of coronavirus disease 2019 in China. N Engl J Med 2020;
382:170820.
13. El YousFZ, Haroun AE, Nebhani C, Belayachi J, Askander O, El Fahime E,
et al. Prevalence of the protective OAS1 rs10774671-G allele against
severe COVID-19 in Moroccans: implications for a North African
Neanderthal connection. Arch Virol 2024;169:109.
14. Human JE, Butler-Laporte G, Khan A, Pairo-Castineira E, Drivas TG,
Peloso GM, et al. Multi-ancestry ne mapping implicates OAS1 splicing
in risk of severe COVID-19. Nat Genet 2022;54:1257.
15. Velavan TP, Pallerla SR, Rüter J, Augustin Y, Kremsner PG, Krishna S,
et al. Host genetic factors determining COVID-19 susceptibility and
severity. EBioMedicine 2021;72:103629.
16. Safari M, Tavakoli R, Aghasadeghi M, Tabatabaee Bafroee AS, Fateh A,
Rahimi P. Study on the correlation between DPP9 rs2109069 and
IFNAR2 rs2236757 polymorphisms with COVID-19 mortality.
Nucleosides Nucleotides Nucleic Acids 2024:116. https://doi.org/10.
1080/15257770.2024.2344179.
17. Fink-Baldauf IM, Stuart WD, Brewington JJ, Guo M, Maeda Y. CRISPRi
links COVID-19 GWAS loci to LZTFL1 and RAVER1. EBioMedicine 2022;75:
103806.
18. Fricke-Galindo I, Martínez-Morales A, Chávez-Galán L, Ocaña-
Guzmán R, Buendía-Roldán I, Pérez-Rubio G, et al. IFNAR2 relevance in
the clinical outcome of individuals with severe COVID-19. Front
Immunol 2022;13:949413.
19. Dopazo J, Maya-Miles D, García F, Lorusso N, Calleja MÁ, Pareja MJ, et al.
Implementing personalized medicine in covid-19 in andalusia: an
opportunity to transform the healthcare system. J Pers Med 2021;11:475.
20. van Moorsel CHM, van der Vis JJ, Duckworth A, Scotton CJ, Benschop C,
Ellinghaus D, et al. The MUC5B promoter polymorphism associates with
severe COVID-19 in the European population. Front Med 2021;8:785529.
21. Lin Y, Jiang B, Cai Y, Luo W, Zheng C, Zhu X, et al. The causal relationship
between COVID-19 and increased intraocular pressure: a bidirectional
two-sample Mendelian randomization study. Front Public Health 2023;
11:1127005.
22. Nakanishi T, Pigazzini S, Degenhardt F, Cordioli M, Butler-Laporte G,
Maya-Miles D, et al. Age-dependent impact of the major common
genetic risk factor for COVID-19 on severity and mortality. J Clin Investig
2021;131:e152386.
23. Singh PP, Srivastava A, Sultana GNN, Khanam N, Pathak A,
Suravajhala P, et al. The major genetic risk factor for severe COVID-19
does not show any association among South Asian populations. Sci Rep
2021;11:12342.
Material Suplementario: Este artículo incluye material suplementario
(https://doi.org/10.1515/almed-2024-0129).
Martin Perez et al.: Inteligencia articial en predisposición genética a enfermedad 9
ResearchGate has not been able to resolve any citations for this publication.
Article
Full-text available
The clinical presentation of COVID-19 shows high variability among individuals, which is partly due to genetic factors. The OAS1/2/3 cluster has been found to be strongly associated with COVID-19 severity. We examined this locus in the Moroccan population for the occurrence of the critical variant rs10774671 and its respective haplotype blocks. The frequency of single-nucleotide polymorphisms (SNPs) in the cluster of OAS immunity genes in 157 unrelated individuals of Moroccan origin was determined using an in-house exome database. OAS1 exon 6 of 71 SARS-CoV-2-positive individuals with asymptomatic/mild disease and 74 with moderate/severe disease was sequenced by the Sanger method. The genotypic, allelic, and haplotype frequencies of three SNPs were compared between these two groups. Finally, males in our COVID-19 series were genotyped for the Berber-specific marker E-M81. The prevalence of the OAS1 rs10774671-G allele in present-day Moroccans was found to be 40.4%, which is similar to that found in Europeans. However, it was found equally in both the Neanderthal GGG haplotype and the African GAC haplotype, with a frequency of 20% each. These two haplotypes, and hence the rs10774671-G allele, were significantly associated with protection against severe COVID-19 (p = 0.034, p = 0.041, and p = 0.008, respectively). Surprisingly, in men with the Berber-specific uniparental markers, the African haplotype was absent, while the prevalence of the Neanderthal haplotype was similar to that in Europeans. The protective rs10774671-G allele of OAS1 was found only in the Neanderthal haplotype in Berbers, the indigenous people of North Africa, suggesting that this region may have served as a stepping-stone for the passage of hominids to other continents.
Article
Full-text available
Background Coronavirus disease 2019 (COVID-19) has brought great challenges to the global public health system and huge economic burdens to society, the causal effect of COVID-19 and intraocular pressure was blank. Objective This study aimed to explore the causal association between coronavirus disease (COVID-19) susceptibility, severity and criticality and intraocular pressure (IOP) by bidirectional Mendelian randomization (MR) analysis. Materials and methods Genetic associations with COVID-19 susceptibility, severity and criticality were obtained from the COVID-19 Host Genetics Initiative. Genetic associations with IOP were obtained from GWAS summary data. The standard inverse variance weighted (IVW) method was used in the primary assessment of this causality. Other methods were also implemented in supplementary analyses. Finally, sensitivity analysis was performed to evaluate the reliability and stability of the results. Results The results showed that COVID-19 susceptibility had null effect on IOP (β = 0.131; Se = 0.211; P = 0.533) as assessed by the IVW method. Moreover, the results revealed that COVID-19 severity, specifically, hospitalization due to COVID-19, had a positive effect on IOP with nominal significance (β = 0.228; Se = 0.116; P = 0.049). However, there were null effect of COVID-19 criticality on IOP (β = 0.078; Se = 0.065; P = 0.227). Sensitivity analysis showed that all the results were reliable and stable. The reverse MR analysis revealed that there was null effect of IOP on COVID-19. Conclusions We demonstrated that hospitalization due to COVID-19 might increase IOP; therefore, greater attention should be given to monitoring IOP in inpatients with COVID-19.
Article
Full-text available
Genome-wide association studies (GWASs) are a research approach used to identify genetic variants associated with common diseases, like COVID-19. The lead genetic variants (n = 41) reported by the eleven largest COVID-19 GWASs are mapped to 22 different chromosomal regions. The loci 3q21.31 (LZTFL1 and chemokine receptor genes) and 9q34.2 (ABO), associated with disease severity and susceptibility to infection, respectively, were the most replicated findings across studies. Genes involved with mucociliary clearance (CEP97, FOXP4), viral-entry (ACE2, SLC6A20) and mucosal immunity (MIR6891) are associated with the risk of SARS-CoV-2 infection while genes of antiviral immune response (IFNAR2, OAS1), leukocyte trafficking (CCR9, CXCR6) and lung injury (DPP9, NOTCH4) are associated with severe disease. The biological processes underlying the risk of infection occur prominently, but not exclusively, in the upper airways whereas the severe COVID-19-associated processes in alveolar-capillary interface. The COVID-19 GWASs has unraveled key genetic mechanisms of SARS-CoV-2 pathogenesis, although the genetic basis of other COVID-19 related phenotypes (long COVID and neurological impairment) remains to be elucidated.
Article
Full-text available
Interferons (IFNs) are a group of cytokines with antiviral, antiproliferative, antiangiogenic, and immunomodulatory activities. Type I IFNs amplify and propagate the antiviral response by interacting with their receptors, IFNAR1 and IFNAR2. In COVID-19, the IFNAR2 (interferon alpha and beta receptor subunit 2) gene has been associated with the severity of the disease, but the soluble receptor (sIFNAR2) levels have not been investigated. We aimed to evaluate the association of IFNAR2 variants (rs2236757, rs1051393, rs3153, rs2834158, and rs2229207) with COVID-19 mortality and to assess if there was a relation between the genetic variants and/or the clinical outcome, with the levels of sIFNAR2 in plasma samples from hospitalized individuals with severe COVID-19. We included 1,202 subjects with severe COVID-19. The genetic variants were determined by employing Taqman® assays. The levels of sIFNAR2 were determined with ELISA in plasma samples from a subgroup of 351 individuals. The rs2236757, rs3153, rs1051393, and rs2834158 variants were associated with mortality risk among patients with severe COVID-19. Higher levels of sIFNAR2 were observed in survivors of COVID-19 compared to the group of non-survivors, which was not related to the studied IFNAR2 genetic variants. IFNAR2, both gene, and soluble protein, are relevant in the clinical outcome of patients hospitalized with severe COVID-19.
Article
Full-text available
The OAS1/2/3 cluster has been identified as a risk locus for severe COVID-19 among individuals of European ancestry, with a protective haplotype of approximately 75 kilobases (kb) derived from Neanderthals in the chromosomal region 12q24.13. This haplotype contains a splice variant of OAS1 , which occurs in people of African ancestry independently of gene flow from Neanderthals. Using trans-ancestry fine-mapping approaches in 20,779 hospitalized cases, we demonstrate that this splice variant is likely to be the SNP responsible for the association at this locus, thus strongly implicating OAS1 as an effector gene influencing COVID-19 severity.
Article
Full-text available
Background To identify host genetic variants (SNPs) associated with COVID-19 disease severity, a number of genome-wide association studies (GWAS) have been conducted. Since most of the identified variants are located at non-coding regions, such variants are presumed to affect the expression of neighbouring genes, thereby influencing COVID-19 disease severity. However, it remains largely unknown which genes are influenced by such COVID-19 GWAS loci. Methods CRISPRi (interference)-mediated gene expression analysis was performed to identify genes functionally regulated by COVID-19 GWAS loci by targeting regions near the loci (SNPs) in lung epithelial cell lines. The expression of CRISPRi-identified genes was investigated using COVID-19-contracted human and monkey lung single-nucleus/cell (sn/sc) RNA-seq datasets. Findings CRISPRi analysis indicated that a region near rs11385942 at chromosome 3p21.31 (locus of highest significance with COVID-19 disease severity at intron 5 of LZTFL1) significantly affected the expression of LZTFL1 (P<0.05), an airway cilia regulator. A region near rs74956615 at chromosome 19p13.2 (locus located at the 3’ untranslated exonic region of RAVER1), which is associated with critical illness in COVID-19, affected the expression of RAVER1 (P<0.05), a coactivator of MDA5 (IFIH1), which induces antiviral response genes, including ICAM1. The sn/scRNA-seq datasets indicated that the MDA5/RAVER1-ICAM1 pathway was activated in lung epithelial cells of COVID-19-resistant monkeys but not those of COVID-19-succumbed humans. Interpretation Patients with risk alleles of rs11385942 and rs74956615 may be susceptible to critical illness in COVID-19 in part through weakened airway viral clearance via LZTFL1-mediated ciliogenesis and diminished antiviral immune response via the MDA5/RAVER1 pathway, respectively. Funding NIH.
Article
Objectives: To evaluate the presence of chronic critical illness (CCI) in COVID-19 patients and compare clinical characteristics and prognosis of patients with and without CCI admitted to intensive care unit (ICU). Methods: It was a retrospective, observational study at a university hospital ICU. Patients were accepted as CCI if they had prolonged ICU stay (≥14 days) and got ≥1 score for cardiovascular sequential organ failure assessment (SOFA) score and ≥2 score in other parameters on day 14 of ICU admission which was described as persistent organ dysfunction. Results: 131 of 397 (33%) patients met CCI criteria. CCI patients were older (p = 0.003) and frailer (p < 0.001). Their Acute Physiology and Chronic Health Evaluation (APACHE) II and SOFA scores were higher, PaO2/FiO2 ratio was lower (p < 0.001). Requirement of invasive mechanical ventilation (IMV), steroid use, and septic shock on admission were higher in the CCI group (p < 0.001). CCI patients had higher ICU and hospital mortality than other patients (54.2% vs. 19.9% and 55.7% vs. 22.6%, p < 0.001, respectively). Regression analysis revealed that IMV (OR: 8.40, [5.10-13.83], p < 0.001) and PaO2/FiO2 < 150 on admission (OR: 2.25, [1.36-3.71], p = 0.002) were independent predictors for CCI. Discussion: One-third of the COVID-19 patients admitted to the ICU were considered as CCI with significantly higher ICU and hospital mortality.