Zitierlink: https://doi.org/10.25819/ubsi/10806
Ensemble Learning for Dealing with Missing Data in Public Health
Literaturtyp
Master Thesis
Autor/innen
Julian Gibas
Einrichtung(en)
Erscheinungsdatum
2025
Zusammenfassung
Fehlende Daten im Bereich Public Health stellen eine Herausforderung für die evidenzbasierte Forschung dar. Während bequeme Methoden zum Umgang mit fehlenden Daten wie die Complete-Case-Analysis oder einfache Imputation stark dazu neigen, verzerrte Parameterschätzungen zu liefern, bietet Multiple Imputation by Chained Equations (MICE) einen geeigneteren Ansatz, wird jedoch durch statistische Komplexitäten wie Nichtlinearität in Gesundheitsdaten herausgefordert. Ensemble Learning Methoden wie Random Forest und XGBoost bieten eine größere Flexibilität für die multiple Imputation (MI). Insbesondere die multiple Imputation durch XGBoost (Mixgb) ist eine neuere Entwicklung, die verspricht, die starke Leistung von XGBoost auf Herausforderungen fehlender Daten zu übertragen.
Diese Arbeit evaluiert drei traditionelle Methoden (Complete-Case-Analysis, Mean-Mode-Median-Imputation, MICE) neben zwei Ensemble-Algorithmen für MI (MICE-Ranger, Mixgb) durch eine Simulationsstudie, die komplexe Gesundheitsdatensätze nachbildet. Acht Szenarien mit fehlenden Daten kombinieren die Mechanismen "Missing At Random" (MAR) oder "Missing Not At Random" (MNAR) mit Anteilen fehlender Daten von 10%, 20%, 30% oder 40%. Statistische Komplexitäten wie Nichtlinearität, Interaktionen, konditionale Heteroskedastizität, Klassenungleichgewicht und Rauschen wurden implementiert. Die Methoden wurden hinsichtlich Verzerrung (Bias), Konfidenzintervallbreite, Überdeckung (Coverage) und einem Komposit-Score ausgewertet und anschließend auf reale Gesundheitsdaten angewendet.
Die Ergebnisse zeigen, dass Mixgb im Durchschnitt die robusteste Methode in allen Szenarien ist, die geringste Verzerrung aufweist und durchweg eine gute Überdeckung bietet. MICE-ranger schnitt besser ab als MICE, aber schlechter als Mixgb. Die Analyse echter Daten ergab, dass alle MI-Methoden bei geringen bis moderaten Anteilen fehlender Daten angemessene Imputationen generierten, obwohl zwischen den Methoden signifikante Unterschiede bei einzelnen Parameterschätzungen auftraten, was die Notwendigkeit unterstreicht, verschiedene MI-Methoden zur Behandlung fehlender Daten in Betracht zu ziehen.
Diese Ergebnisse legen nahe, dass Ensemble Lerning Methoden, insbesondere Mixgb, im Vergleich zu linearen Methoden wie MICE in komplexen Szenarien mit fehlenden Daten eine überlegene Leistung bieten. Angesichts der Heterogenität von Daten im Public Health Bereich sollten Forscher Ensemble-Methoden für MI als robuste Lösungen für Probleme mit fehlenden Daten in Betracht ziehen, ohne MICE als mögliche Lösung für eher lineare Szenarien mit fehlenden Daten zu vernachlässigen.
Diese Arbeit evaluiert drei traditionelle Methoden (Complete-Case-Analysis, Mean-Mode-Median-Imputation, MICE) neben zwei Ensemble-Algorithmen für MI (MICE-Ranger, Mixgb) durch eine Simulationsstudie, die komplexe Gesundheitsdatensätze nachbildet. Acht Szenarien mit fehlenden Daten kombinieren die Mechanismen "Missing At Random" (MAR) oder "Missing Not At Random" (MNAR) mit Anteilen fehlender Daten von 10%, 20%, 30% oder 40%. Statistische Komplexitäten wie Nichtlinearität, Interaktionen, konditionale Heteroskedastizität, Klassenungleichgewicht und Rauschen wurden implementiert. Die Methoden wurden hinsichtlich Verzerrung (Bias), Konfidenzintervallbreite, Überdeckung (Coverage) und einem Komposit-Score ausgewertet und anschließend auf reale Gesundheitsdaten angewendet.
Die Ergebnisse zeigen, dass Mixgb im Durchschnitt die robusteste Methode in allen Szenarien ist, die geringste Verzerrung aufweist und durchweg eine gute Überdeckung bietet. MICE-ranger schnitt besser ab als MICE, aber schlechter als Mixgb. Die Analyse echter Daten ergab, dass alle MI-Methoden bei geringen bis moderaten Anteilen fehlender Daten angemessene Imputationen generierten, obwohl zwischen den Methoden signifikante Unterschiede bei einzelnen Parameterschätzungen auftraten, was die Notwendigkeit unterstreicht, verschiedene MI-Methoden zur Behandlung fehlender Daten in Betracht zu ziehen.
Diese Ergebnisse legen nahe, dass Ensemble Lerning Methoden, insbesondere Mixgb, im Vergleich zu linearen Methoden wie MICE in komplexen Szenarien mit fehlenden Daten eine überlegene Leistung bieten. Angesichts der Heterogenität von Daten im Public Health Bereich sollten Forscher Ensemble-Methoden für MI als robuste Lösungen für Probleme mit fehlenden Daten in Betracht ziehen, ohne MICE als mögliche Lösung für eher lineare Szenarien mit fehlenden Daten zu vernachlässigen.
Datei(en)![Vorschaubild]()
Lade...
Name
Masterarbeit_Gibas_Julian.pdf
Size
1.86 MB
Format
Adobe PDF
Checksum
(MD5):ad8afaa0c25636a7e76610d49192295d
Enthalten in den Sammlungen

