Julian Gibas2025-11-042025-11-042025https://dspace.ub.uni-siegen.de/handle/ubsi/7211Missing data in public health present challenges for evidence-based research. While convenient missing data handling methods like complete-case analysis or single imputation have a strong tendency to produce biased parameter estimates, Multiple Imputation by Chained Equations (MICE) provides a more appropriate approach but struggles with statistical complexities such as non-linearity in health data. Ensemble learning methods like random forest and XGBoost offer greater flexibility for multiple imputation (MI). Particularly multiple Imputation through XGBoost (Mixgb) is a recent development that promises to transfer the strong performance of XGBoost to missing data challenges. This thesis evaluates three traditional methods (complete-case analysis, mean-mode-median imputation, MICE) alongside two ensemble algorithms for MI (MICE-ranger, Mixgb) through a simulation study recreating complex health data sets. Eight missing data scenarios combine Missing At Random (MAR) or Missing Not At Random (MNAR) mechanisms with missing data proportions of 10%, 20%, 30%, or 40%. Statistical complexities including non-linearity, interactions, conditional heteroskedasticity, class imbalance, and noise were incorporated. Methods were assessed on bias, confidence interval width, coverage, and a composite performance score, then applied to real-world health data. Results indicate Mixgb is, on average, the most robust method across all scenarios, demonstrating the least bias and consistently good coverage. MICE-ranger performed better than MICE but worse than Mixgb. Real-world data analysis showed all MI methods generated proper imputations for low-to-moderate missing data proportions, though significant differences in single parameter estimates occurred between methods, underscoring the need to consider different MI methods to handle missing data. These findings suggest ensemble learning methods, particularly Mixgb, offer superior performance compared to linear methods like MICE for complex missing data scenarios. Given the heterogeneous nature of public health data, researchers should consider ensemble methods for MI as robust solutions for missing data challenges, without neglecting MICE as a possible solution to more linear missing data scenarios.Fehlende Daten im Bereich Public Health stellen eine Herausforderung für die evidenzbasierte Forschung dar. Während bequeme Methoden zum Umgang mit fehlenden Daten wie die Complete-Case-Analysis oder einfache Imputation stark dazu neigen, verzerrte Parameterschätzungen zu liefern, bietet Multiple Imputation by Chained Equations (MICE) einen geeigneteren Ansatz, wird jedoch durch statistische Komplexitäten wie Nichtlinearität in Gesundheitsdaten herausgefordert. Ensemble Learning Methoden wie Random Forest und XGBoost bieten eine größere Flexibilität für die multiple Imputation (MI). Insbesondere die multiple Imputation durch XGBoost (Mixgb) ist eine neuere Entwicklung, die verspricht, die starke Leistung von XGBoost auf Herausforderungen fehlender Daten zu übertragen. Diese Arbeit evaluiert drei traditionelle Methoden (Complete-Case-Analysis, Mean-Mode-Median-Imputation, MICE) neben zwei Ensemble-Algorithmen für MI (MICE-Ranger, Mixgb) durch eine Simulationsstudie, die komplexe Gesundheitsdatensätze nachbildet. Acht Szenarien mit fehlenden Daten kombinieren die Mechanismen "Missing At Random" (MAR) oder "Missing Not At Random" (MNAR) mit Anteilen fehlender Daten von 10%, 20%, 30% oder 40%. Statistische Komplexitäten wie Nichtlinearität, Interaktionen, konditionale Heteroskedastizität, Klassenungleichgewicht und Rauschen wurden implementiert. Die Methoden wurden hinsichtlich Verzerrung (Bias), Konfidenzintervallbreite, Überdeckung (Coverage) und einem Komposit-Score ausgewertet und anschließend auf reale Gesundheitsdaten angewendet. Die Ergebnisse zeigen, dass Mixgb im Durchschnitt die robusteste Methode in allen Szenarien ist, die geringste Verzerrung aufweist und durchweg eine gute Überdeckung bietet. MICE-ranger schnitt besser ab als MICE, aber schlechter als Mixgb. Die Analyse echter Daten ergab, dass alle MI-Methoden bei geringen bis moderaten Anteilen fehlender Daten angemessene Imputationen generierten, obwohl zwischen den Methoden signifikante Unterschiede bei einzelnen Parameterschätzungen auftraten, was die Notwendigkeit unterstreicht, verschiedene MI-Methoden zur Behandlung fehlender Daten in Betracht zu ziehen. Diese Ergebnisse legen nahe, dass Ensemble Lerning Methoden, insbesondere Mixgb, im Vergleich zu linearen Methoden wie MICE in komplexen Szenarien mit fehlenden Daten eine überlegene Leistung bieten. Angesichts der Heterogenität von Daten im Public Health Bereich sollten Forscher Ensemble-Methoden für MI als robuste Lösungen für Probleme mit fehlenden Daten in Betracht ziehen, ohne MICE als mögliche Lösung für eher lineare Szenarien mit fehlenden Daten zu vernachlässigen.en610 Medizin, GesundheitStatistical LearningMachine LearningMissing DataPublic HealthEnsemble LearningFehlende WerteStatistikEnsemble Learning for Dealing with Missing Data in Public HealthMaster ThesisSteffen Unkelurn:nbn:de:hbz:467-72112