MACHINE LEARNING PARA INVESTIGACIÓN CIENTÍFICA Random Forest, Boosting y Técnicas Avanzadas de Interpretación por Manuel Mendoza
IMPARTIDO POR
Manuel Mendoza García. Científico Titular del MNCN-CSIC.
OBJETIVO
Aprender a utilizar en investigación científica modelos como Random Forest, GBM, CatBoost o XgBoost, así como herramientas avanzadas con las que interpretarlos (Partial Dependence Plots, Valores de Shapley, LIME, Perfil de desglosamiento de importancias) comprendiendo los conceptos teóricos en los que se fundamentan. El curso tiene un enfoque altamente práctico (≈ 75%), con más de 50 ejercicios basados en investigaciones reales (ver programa). La programación, resolución e interpretación de estos ejercicios se desarrolla en paralelo con la teoría.
DIRIGIDO A
Investigadores de cualquier área y nivel académico.
REQUISITOS
Conocimientos básicos de R.
Haber realizado el curso Machine Learning para Investigación Científica: Árboles de Clasificación y Regresión o uno equivalente
Traer portátil (presencial)
MATERIAL INCLUIDO EN EL CURSO
Códigos explicados de todos los ejercicios del curso.
Guía del curso con los principales conceptos en el PowerPoint de las clases (ver AQUÍ).
PROGRAMA
Métodos de ensamble de árboles
1. Bagging (bootstrap aggregation) con árboles de decisión
2. Random forests (RF)
Ejercicio 2.1. a) Predecir la riqueza de especies invertrívoras (IFd) a partir del clima con AdR reduciendo la varianza (error por imprecisión) mediante promediado; b) programación paso a paso (sin librería) de un bagging. Script CliMod; c) programación paso a paso (sin librería) de un RF entrenado para predecir la riqueza de especies invertrívoras a partir del clima, a escala global, testándolo con muestras independientes. Script CLiMod.
Ejercicio 2.2. a) Entrenar un RF con el paquete randomForest), para predecir la riqueza de especies invertrívoras a partir del clima, a escala global, testándolo con muestras independientes. Script CLiMod.
Hiperparámetros (paquete randomForest)
Sobreajuste con Random Forest
2.1 Regresión
Ejercicio 2.3. Estimar con RF (200 árboles) la riqueza de especies de aves invernantes (regresión) a partir de predictores ambientales (datos reales) e inferir la riqueza de especies en una nueva localidad (NvLoc). Script Numspc.
Ejercicio 2.4 Solos. Estimar con Random Forest (200 árboles) la calidad del vino (quality) a partir de sus características físico-químicas, y predecir la calidad de un nuevo vino basado en sus propiedades. Script WineQT
Ejercicio 2.5 Solos Estimar con RF (200 árboles) el tamaño del rango (RngSz) de las aves a partir de su morfología y estimar el rango de una especie desconocida de ruiseñor (género Luscinia). Script AVONETRngSz
Datos desequilibrados y coste diferencial con el paquete randomForest
2.2 Clasificación binaria
Ejercicio 2.6. Predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) mediante RF para clasificación binaria a partir de variables predictoras ambientales; a) directo; b) equiparando las categorías con sampsize para que las presencias pesen tanto como las ausencias, c) testar con VCPB equiparando con sampsize; d) dándole el doble de peso a las presencias que a las ausencias. d) comparar con árbol de clasificación (Ejercicio 1.14.1). Script AvesCls.
2.3 Clasificación multiclase
Ejercicio 2.7. Determinar el tipo de hábitat (Forest, Grassland, Shrubland, Wetland o Woodland) al que están adaptadas las aves a partir de su morfología. a) Entrenar un algoritmo de RF (clasificación multiclase) que permita inferir el tipo de hábitat (ecsta) de una especie a partir de morfología sin equilibrar las categorías de la variable objetivo (No eq.). b) Estimar de la capacidad predictiva del modelo para cada categoría, c) Repetir apartados a y b equilibrando las categorías (Eq.), d) Obtener la predicción OOB para el elemento 128, e) Determinar el tipo de hábitat de Ochthoeca fumicolor con este último modelo. Script AVONETEHbt
Ejercicio 2.8. Solos Determinar el tipo de ecosistema de la comunidad de mamíferos de Venta Micena a partir de su estructura trófica. a) Entrenar un algoritmo de RF (clasificación multiclase) que permita inferir el tipo de ecosistema (ecsta) de una comunidad a partir de la estructura trófica (nº de especies de cada grupo trófico) sin equilibrar las categorías de la variable objetivo (No eq.), b) Estimación de la capacidad predictiva del modelo para cada categoría c) Repetir apartados a y b equilibrando las categorías (Eq.), d) Obtener la predicción OOB para el elemento 18º, e) Determinar el tipo de ecosistema de Venta Micena (VM) con este último modelo, f) Comparar resultados con árbol de clasificación (bloque 1). Script AfroNPs
Ejercicio 2.9. a) Predecir el tipo de estructura trófica esperable en un lugar a partir de su clima mediante RF (n=2000), ponderando para que las 6 categorías pesen lo mismo, b) evolución del error (6 estructuras y OOB) ¿son 2000 árboles suficientes?, c) evolución del error para TS4 y valor final, d) estimación de la capacidad predictiva del modelo con VCPB (datos estructurados espacialmente), para cada TS y total, e) comparar resultados con árbol de clasificación (bloque 1). Script EFWOGE
Optimización de hpps en Random Forest
Rejilla de búsqueda (grid)
Ejercicio 2.10. Optimizar con una grid aleatoria un algoritmo de RF entrenado para estimar la riqueza de especies de aves invernantes (regresión) a partir de predictores ambientales. Script Numspc.
3. Boosting
3.1 AdaBoost (AdaptativeBoosting)
Ejercicio 3.1. Desarrollo de un AdaBoost paso a paso, aplicado a un ejemplo extraordinariamente sencillo (ficticio): p. ej.: un modelo predictivo de distribución de una especie o el desarrollo de una prueba diagnóstico con 10 muestras y 2 variables predictoras (irreal en ambos casos). 3 fases: a) Elección y desarrollo de los clasificadores débiles (weak learners); b) Obtención del peso de cada clasificador (at); c) Predicción (H)
3.2 Gradient Boosting Machine (GBM)
Gradiente de una Función de Pérdida (FdP)
Optimización mediante Descenso por Gradiente
Error cuadrático medio (mse) como FdP para regresión
Ejercicio 3.2. Programar paso a paso (sin librería) un GBM, utilizando el mse como FdP, para predecir, a) Cómo varía la tasa fotosintética de una planta (TFt, datos ficticios) en función de la hora del día (H) Ver GIF; b) Cómo varía la tasa de crecimiento de un microorganismo (TC, datos ficticios) en función de la concentración de un nutriente y la temperatura del medio. Script GBM program.
Tasa de aprendizaje (TdA, learning rate)
Datos de entrenamiento, validación y prueba (traindata, valdata y testdata)
Fuga de Información (Data Leakage)
Ejercicio 3.3. Programar paso a paso (sin librería) un GBM para regresión, que prediga la riqueza de especies invertívoras (IFd) a partir del clima, utilizando distintas tasas de aprendizaje (0.1 y 0.01) y mse como FdP. Determinar el nº óptimo de árboles, basado en el coeficiente Kappa, con datos de validación espacialmente independientes. Script CLiMod
Ejercicio 3.4. Programar con la librería GBM un algoritmo para regresión, que prediga la riqueza de especies invertívoras (IFd) a partir del clima. Determinar el nº óptimo de árboles, basado en el coeficiente Kappa, con la VC interna del paquete GBM y testar con datos de validación espacialmente independientes. Script CLiMod
Entropía cruzada (EC) como FdP para clasificación binaria
Ejercicio 3.5. Programar paso a paso (sin librería) un GBM para clasificación binaria que prediga las condiciones que llevan a la depauperación (Dep) de las comunidades de zonas frías y templadas, a partir de factores de impacto humano, equilibrando las categorías de la variable objetivo submuestreando la más abundante, y utilizando la entropía cruzada como FdP. Entrenar con un 80% de los datos y utilizar el 20% restante como datos de validación con los que determinar el nº óptimo de árboles, basándote en el coeficiente Kappa. Script Human Impact
Ejercicio 3.6. Entrenar un modelo para clasificación binaria con la librería GBM que prediga las condiciones que llevan a la depauperación (Dep) de las comunidades de zonas frías y templadas, a partir de factores de impacto humano, equilibrando las categorías de la variable objetivo submuestreando la más abundante. Entrenar el modelo con el 80% de los datos y utilizar el 20% restante para testar el modelo, optimizando el nº de árboles con la VC interna del paquete GBM. Script Human Impact
3.3 GBM estocástico
3.4 Paquete GBM (gradient boosting machine)
3.5 Optimización de los hiperparámetros
Rejilla de búsqueda (grid)
Optimización Bayesiana
Riesgo de Sobreajuste a los Datos de Validación
Ejercicio 3.7. Entrenar un algoritmo de GBM para regresión con el que estimar la riqueza de especies de aves invernantes a partir de predictores ambientales. Entrenar con un 90% de las muestras y testar con el 10% restante. a) Sin optimización, b) Optimización con una grid aleatoria, c) Optimización bayesiana, d) Estimar la riqueza de especies en una nueva localidad (NvLoc). Script Numspc
Ejercicio 3.8. Solos Entrenar un algoritmo de GBM para regresión con el que estimar la masa corporal de las aves voladoras a partir de su morfología. Entrenar con un 10% de las muestras y testar con el 90% restante. a) Sin optimización, b) Optimización con una grid aleatoria, c) Optimización bayesiana, d) Estimar la masa corporal de Accipiter brachyurus, Cincloramphus cruralis y Tigriornis leucolopha (datos reales, pero no de una investigación real). Script AVONETMsCrp
Ejercicio 3.9. Predecir a partir de variables ambientales la presencia o ausencia del avión roquero (Ptynoprogne rupestris) mediante GBM para clasificación binaria, ponderando las presencias para que pesen tanto como las ausencias, a) directamente sin optimizar (no testar) y b) optimizando con grid aleatoria y la k-folds CV interna de GBM, c) Estimar con VCPB la capacidad predictiva (con kappa), con datos estructurados espacialmente; d) Representar las predicciones. Script AvesCls.
Ejercicio 3.10. a) Determinar el tipo de ecosistema de una comunidad de mamíferos a partir de su estructura trófica mediante GBM para clasificación multiclase. b) Evaluación de la capacidad predictiva con leave-one-out, c) determinar el tipo de ecosistema de Venta Micena. Script AfroNPs.
4. Xgboost (eXtreme Gradient Boosting)
4.1 Regularización
4.2 Hiperparámetros del paquete xgboost
4.3 Métricas de evaluación disponibles en xgboost
4.4 XgBoost con predictores numéricos
Ejercicio 4.1. a) Estimar la riqueza de especies de aves invernantes con XgBoost a partir de predictores ambientales, sin optimizar y optimizando con grid aleatoria y la k-folds CV interna del paquete Xgboost, b) testar el mejor modelo con testdata y comparar resultados con AdR, RF y GBM, c) Inferir la riqueza de especies esperable en una nueva localidad (NvLoc) con XgBoost. Script Numspc.
Ejercicio 4.2. Solos. a) Estimar el albedo o reflectividad de un asteroide con xgboost, a partir de ciertas características físicas y orbitales, sin optimizar y optimizando con grid aleatoria y la k-folds CV interna del paquete Xgboost, b) testar el mejor modelo con testdata, c) Estimar el albedo de un nuevo asteroide (NvAst). Script Asteroid.
Ejercicio 4.3 Solos a) Estimar la masa corporal de las aves (regresión) con xgboost a partir de la morfología de su ala (datos reales), sin optimizar y optimizando con grid aleatoria y la k-folds CV interna del paquete Xgboost, b) testar el mejor modelo con testdata, c) Estimar la masa corporal de Accipiter brachyurus, A. brevipes y A. Butler (datos reales, pero no de una investigación real). Script AVONETMsCrp
Ejercicio 4.4. Predecir el tipo de tumor (benigno o maligno) relacionado con la neurofibromatosis tipo 1 a partir del perfil de expresión génica de sus células mediante XgBoost, a) directamente sin optimizar (no testar) y b) optimizando con una grid exhaustiva y la k-folds CV interna del paquete lightGBM c) Testar la capacidad predictiva sobre datos test. Script neurofibroma.
Ejercicio 4.5. a) Determinar el tipo de ecosistema de una comunidad de mamíferos a partir de su estructura trófica mediante XgBoost para clasificación multiclase. b) Testar la capacidad predictiva con leave-one-out CV, c) Determinar el tipo de ecosistema de Venta Micena. Script AfroNPs.
Ejercicio 4.6. Predecir con XgBoost la presencia o ausencia (clasificación binaria) del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales, ponderando las presencias para que pesen tanto como las ausencias, a) sin optimizar, b) optimizándolo con una grid aleatoria y la k-folds CV interna del paquete xgboost, c) testar la capacidad predictiva del "mejor" modelo con VCPB espacialmente independientes. Script AvesCls
4.5 XgBoost, datos estructurados y validación externa
Ejercicio 4.7. Determinar el comportamiento migratorio de Accipiter brachyurus, A. brevipes y A. butleri (newspcs) a partir de su morfología con XGBoost (clasificación multiclase). 60% entrenamiento, 30% validación y 10% test, ponderando con weights para que las clases pesen lo mismo. Optimizar con grid aleatoria y datos de validación externa. Script AVONETMgr
Ejercicio 4.8. Solos. Determinar el sitio de localización de una proteína dentro de la célula de la levadura Saccharomyces cerevisiae, a partir de 8 descriptores del sistema de anotaciones Yeast Protein Database utilizando XGBoost (clasificación multiclase). 60% entrenamiento, 30% validación y 10% test, ponderando con weights para que las 10 categorías pesen lo mismo. Optimizar con grid exhaustiva y datos de validación externa. Script yeast.
Ejercicio 4.9. Programar un algoritmo de XgBoost que prediga la riqueza de especies invertívoras (IFd) a partir del clima. b) optimizar con rejilla de búsqueda y datos de validación espacialmente independientes; c) testar con datos de prueba, ambos espacialmente independientes. Script ClimMod.
Ejercicio 4.10. a) Predecir el tipo de estructura trófica esperable en un lugar a partir de su clima mediante XgBoost (n=2000), ponderando para que las 6 categorías pesen lo mismo, b) optimizar con rejilla de búsqueda y datos de validación espacialmente independientes; c) testar con datos de prueba, ambos espacialmente independientes. Script EFWOGE
4.6 XgBoost con predictores cualitativos (One-hot-encoding)
Ejercicio 4.11. a) Determinar con XgBoost la comestibilidad o potencial toxicidad de una seta de las familias Agaricus y Lepiota (clasificación binaria) a partir de 22 características (predictores cualitativos convertidos en numéricas (binomiales) mediante One-hot-encoding, b) Aplicar a nuevos datos, c) ¿sería seguro utilizar el algoritmo sobre una especie no presente en los datos? Script mushroom.
6. Bagging con GBM
Ejercicio 6.1. Predecir la presencia de enfermedad cardíaca, a) con un modelo GBM simple, b) implementar un ensamble de 10 modelos GBM mediante bagging, utilizando diferentes sets de muestras de entrenamiento (bag.fraction < 1). Comparar el rendimiento del ensamble con el modelo GBM simple utilizando las mismas métricas. Script Heart Disease
7. Importancia de las variables
7.1 Importancia de las variables con Árboles de decisión
7.2 Importancia de las variables con Random forests
I. Incremento relativo del error por permutación (IbP)
Regresión (%IncMSE)
Clasificación (MeanDecreaseAccuracy, MDA)
II. Incremento de la pureza de los nodos (IbG)
Regresión (IncNodePurity)
Clasificación (MeanDecreaseGini, MDG)
IbP vs. IbG
Ejercicio 7.1. Identificar las principales adaptaciones morfológicas de las aves para vivir en distintos tipos de hábitat, a partir de la importancia de las variables del RF del Ejercicio 2.7, entrenado para predecir el tipo de hábitat a partir de 10 variables morfológicas. Script AVONETHbt
Ejercicio 7.2. a) Averiguar los factores climáticos que determinan fundamentalmente la riqueza de especies invertívoras a escala global, a partir de la importancia de las distintas variables climáticas en un modelo de RF para regresión; b) Entrenar un modelo de AdR para ver cómo afectan esas variables y contrastar la información con ayuda de un correlograma. Script CliMod
7.3 Random forests como herramienta de selección de variables
Ejercicio 7.3. En base a la respuesta de los enfermos a distintos tratamientos se han identificado 3 tipos de cáncer (I, II o III) ), cuya respuesta a los tratamientos es distinta. Entrenar un AdC optimizado globalmente con algoritmos evolutivos (evtree) para identificar el tipo a partir del grado de expresión de 46 variantes genéticas (originalmente > 58.000), seleccionando previamente aquellas que son más importantes con RF (archivo: E-MTAB-2770). Script Cáncer.
7.4 Importancia de las variables con GBM
7.5 Importancia de las variables con XgBoost
Ejercicio 7.2. a) Entrenar un árbol de clasificación optimizado globalmente con evtree con el que identificar la malignidad o benignidad de un neurofibroma tipo 1, a partir del perfil de expresión génica de sus células (≈ 55.000 variantes genéticas), seleccionando previamente aquellas que son más importantes con RF (finalmente XgBoost). Script NeurofibORIG.
7.6 Paquete DALEX (Descriptive mAchine Learning EXplanations)
Importancia basada en permutaciones
Ejercicio 7.4. Comparativa: a) AdR, b) RF, c) GBM y d) XgBoost. Representa la importancia de las variables predictoras al estimar la riqueza de especies de aves invernantes (regresión). Script Numspc.
Importancia Basada en el Valor de Shapley
Perfil de desglosamiento de importancias (Break Down Profile, BDP)
Ejercicio 7.5. a) Determinar la IbP de las variables del RF del Ejercicio 7.1 utilizando el paquete DALEX y comparar con la IbP del paquete RandomForest; b) Averiguar la contribución individual de cada variable morfológica a la probabilidad de que el Pitajo dorsipardo (Ochthoeca fumicolor) sea una especie de pastizales y de humedales obteniendo para ello los valores de Shapley (SHAP); c) Obtener también un perfil desglosado (Break Down profile) para ver el resultado de la interacción entre las variables morfológicas en la predicción del modelo (hábitat P. dorsipardo: arbustos, bordes de bosques de montaña y pastizales). Script AVONETHbt
8. Efecto de las variables predictoras
8.1. Partial dependence plots (PDP)
Ejercicio 8.1. Análisis e interpretación de los resultados (Importancia, PDP e interacciones) de un RF para regresión, de una base de datos artificial (1000 muestras y 3 predictores: a, b y c) cuya variable objetivo “y” tiene una relación sencilla conocida: a) con un solo predictor, b) con 2 predictores no correlacionados, c) con 1 predictor, que está correlacionado con otro. Script PDP2.
Árboles de decisión vs. Random forests ¿caja blanca y caja gris?
Ejercicio 8.2. Determinar el efecto de ciertas variables ambientales sobre la abundancia de una planta (ficticia) con restricciones ambientales y condiciones de favorabilidad climática, con muestras y variables artificiales, NO CORRELACIONADAS, a) con ayuda de un árbol de regresión, b) a partir de la importancia de las variables en un modelo de RF (con paquetes randomForest y DALEX), c) PDPs, y d) Perfil desglosado (BDP) de algunas muestras. Script PDP2.
Ejercicio 8.3. Determinar el efecto de ciertas variables ambientales sobre la abundancia del avión roquero (Ptynoprogne rupestris) a) con ayuda de un árbol de regresión, b) a partir de la importancia de las variables en un modelo de RF (con paquetes randomForest y DALEX), c) PDPs, y d) el Perfil desglosado (BDP) de algunas muestras. Script AvesReg.
8. 2. Curvas de expectativas condicionales individuales (ICE)
8.3. Gráficos de los efectos locales acumulados (ALE)
9. Interacción entre predictores
9.1. Representación visual mediante PDPs combinados
9.2. Estadístico H (Friedman's H-statistic)
Ejercicio 9.1. Caracterizar mediante árbol de regresión y RF el nicho climático óptimo de una especie de ave tropical, a partir de la distribución global de su abundancia. Los datos climáticos son reales (13178 celdas de 1º x 1º distribuidas globalmente). Por lo tanto, están CORRELACIONADOS. Los valores de abundancia son artificiales. Script PDP1.
Ejercicio 9.2. Determinar el tipo de hábitat (Forest, Grassland, Shrubland, Wetland o Woodland) al que están adaptadas las aves a partir de su morfología. (Con solo el 25% de las muestras) Exploratory Data Analysis
a) Con el paquete randomForest: a.1 Entrenar un modelo ponderando para que las 5 categorías pesen lo mismo.
b) Con el paquete PDP obtener: b.1 Obtener los PDPs suavizados para los 5 hábitats de la longitud de la cola (TlL) y la profundidad del pico (BKD), las más importantes según el ej. 6.3; b.2 PDPs combinados de la longitud de la cola (TlL) y la profundidad del pico (BkD) para pastizales (Grassland) en 2D y 3D; b.3 ICE para la longitud de la cola (TlL) .
c) Con el paquete Iml: c.1 ALEs para la longitud de la cola (TlL); c.2 Interacción entre predictores con el estadístico H; c.3 Interacción de la longitud de la cola (TlL) con el resto de predictores.
d) Con el paquete DALEX: d.1 Los 5 PDPs (5 hábitats) para TlL. Script AVONETHbt
Ejercicio 9.3 Solos. Determinar el tipo de ecosistema de una comunidad de mamíferos a partir de su estructura trófica. Exploratory Data Analysis; a) Con el paquete randomForest, a.1 Entrenar un modelo de RF ponderando para que las 4 categorías pesen lo mismo, a.2 Obtener la importancia de las variables
b) Con el paquete PDP obtener: b.1 PDP de los frugívoros (frg) para las selvas (RFr), b.2 Obtener algunos PDPs suavizados,b.3 PDPs combinados de carroñeros (bc) e hipercarnívoros (hc) en 2D y 3D, b.4 ICE para los pacedores (gg)
c) Con el paquete Iml: c.1 ALEs NO HACER; c.2 Interacción entre predictores con el estadístico H, c.3 Interacción de los pacedores (gg) con el resto de grupos tróficos
d) Con el paquete DALEX: d.1 Los 4 PDPs juntos, de los 4 ecosistemas, para los pacedores (gg). Script AfroNPs.
Ejercicio 9.4. Caracterizar mediante RF y GBM las condiciones que llevan a la depauperación de las comunidades de zonas frías y templadas, a partir de factores de impacto humano mediante la importancia de las variables, perfil desglosado de algunas muestras, PDP y las interacciones entre ellos. Script Human Impact.
Ejercicio 9.5. a) Averiguar la variable más importante de un algoritmo de RF entrenado para predecir la riqueza de especies invertívoras (IFd) a partir del clima, de acuerdo con su contribución a disminuir la impureza de los nodos (IncNodePurity), a predecir correctamente (%IncMSE) y a la exclusividad de su información (Uniqueness Importance), b) Analizar con PDP suavizados (paquete PDP) su efecto sobre la riqueza de especies invertívoras, de forma independiente y combinada (2D y 3D) c) Comprobar con ICE si el efecto medio (PDP) se corresponde con un único patrón, d) Analizar con ALE (paquete iml) el efecto de las 2 variables y Averiguar sus interacciones fundamentales. Script CliMod
Ejercicio 9.6. Predecir la Abundancia del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales (regresión). Separar previamente, al azar, una celda (NvLoc) donde sea abundante (Abundancia > 20). Con el Paquete XgBoost: a) Entrenar un algoritmo XgBoost; b) Determinar la importancia de las variables (Gain, Cover y Frequency); c) Determinar la abundancia esperada en una nueva localidad (NvLoc). Con el paquete DALEX: d) Determinar la importancia de las variables; e) Obtener el perfil desglosado (BDP) para la 1ª muestra (Abund=0) y NvLoc (Abund>15); f) Obtener la Importancia Basada en el Valor de Shapley para la 1ª muestra (Abund=0) y NvLoc (Abund>15); g Determinar el efecto de la Temperatura media (tempmedia) con PDP; h) Determinar el efecto de todas las variables, simultáneamente, con sus PDPs, estandarizando los gráficos; i) Dividir las poblaciones en interiores y costeras para comprobar con PDPs si el efecto de las variables sigue un mismo patrón. Script AvesReg.
Ejercicio 9.7 Solos Para predecir la masa corporal de las aves (regresión) a partir de la morfología de su ala (con solo el 25% de las muestras). Con el Paquete XgBoost: a) Entrenar un algoritmo XgBoost, b) Determinar la importancia de las variables (Gain, Cover y Frequency), c) Determinar la masa corporal de 3 nuevas especies: Accipiter brachyurus, Cincloramphus cruralis y Tigriornis leucolopha. Con el paquete DALEX: d) Determinar la importancia de las variables; e) Obtener el perfil desglosado (Break Down profile) para la 1ª muestra de entrenamiento y NvLoc; f) Obtener la Importancia Basada en el Valor de Shapley (SHAP values) para la 1ª muestra de entrenamiento y NvLoc; g) Determinar el efecto de la longitud de la cola (TlL) con PDP; h) Determinar con sus PDPs el efecto de todas las variables, simultáneamente, estandarizando los gráficos para hacerlos comparables. Script AVONETMsCrp.
Ejercicio 9.8. Análisis e interpretación (Importancia, PDP, ALEs e interacciones) de los algoritmos de RF y XgBoost, para predecir la presencia o ausencia del avión roquero (Ptynoprogne rupestris) a partir de variables predictoras ambientales. Obtener las ICE para tempmin e identificar las que muestran un patrón diferente. Script AvesCls.
Ejercicio 9.9. a) Utilizar el paquete pdp para analizar con PDP cómo afectan a la probabilidad de que un cáncer sea del tipo I, II o III, las dos variantes genéticas más importantes (de las 8 identificadas en el ej. 2.6.1), de acuerdo con RF-MeanDecreaseGini, b) analizar con PDP suavizado el efecto de MTATP6 sobre la probabilidad de padecer un cáncer tipo II, c) analizar el efecto combinado de ambas variantes genéticas sobre el cáncer tipo II, d) Utilizar el paquete DALEX para representar en un mismo plot ambos PDPs para cada variante genética, e) analizar con el paquete iml las interacciones entre las 8 variantes genéticas identificadas en el ej. 2.6.1, f) las interacciones entre la variante más importante y las demás. Script Cáncer.
Ejercicio 9.10. Analizar con PDP, cómo afecta el grado de expresión de los dos genes más importantes, identificados por el algoritmo XgBoost, sobre la probabilidad de padecer cada tipo de cáncer, usando para ello el paquete DALEX (+ DALEXtra para XgBoost). Script Cáncer
Ejercicio 9.11. Solos Analizar con PDP, cómo afectan los dos rasgos morfológicos más importantes de acuerdo con un algoritmo XgBoost, sobre la probabilidad de padecer cada tipo de hábitat, usando para ello los PDPs combinados del paquete DALEX. Script AVONETHbt
Ejercicio 9.12. Predecir la distribución de la riqueza de especies invertrívoras en 2070 a partir de un escenario de cambio climático RCP 8.5 (datos reales). Script CLiMod
Fecha
- Lunes, 15 Septiembre 2025
- Martes, 30 Septiembre 2025
Horario
Del lunes 15 al martes 30 de septiembre (30 horas lectivas)
Horario
- Clases en directo: lunes a jueves, de 16.30 a 19.30h
- Clases en diferido: disponibles online hasta 31 de diciembre
Ubicación
Museo Nacional de Ciencias Naturales
Plazas
20 plazas presenciales
60 en acceso remoto a través de Zoom.
Reserva de plazas en el correo
mcnc104@mncn.csic.es
Se agradece la difusión de esta página en cualquier institución científica en la que pueda interesar
Tarifas
350€