Preprocessing for Data-Driven Modeling with Probability Density Estimation

Peter, Timm J.Timm J.Peter2026-02-272026-02-272026https://dspace.ub.uni-siegen.de/handle/ubsi/8777In engineering, the modeling of complex systems plays a central role. Increasing computing power and storage capacities as well as the trend towards deep neural networks are resulting in more and more data being stored. This dissertation addresses two main challenges arising from handling large amounts of data for data-driven modeling: Firstly, the choice of a subset that is representative of the dataset from which it is selected. Secondly, the handling of unbalanced datasets, i.e., datasets with regimes of higher and lower point density. The first challenge is addressed by developing a novel subset selection algorithm based on kernel density estimation. The method ensures that the selected subset is representative of the original dataset or any desired arbitrary distribution. A sophisticated yet simple approach to evaluating the estimated density allows to save computing time. The second challenge is addressed by introducing a data weighting method that extends the standard loss function. The weights for the individual data points are adjusted in such a way that data points from regions of sparser point densities are weighted higher and data points from regions of higher point densities are weighted lower in order to ensure a more balanced model performance. This approach is independent of model architecture and suited for any training algorithm. The effectiveness of the developed methods is demonstrated by using benchmark datasets and real-world application examples. Among others, the examples of thermal modeling of a permanent magnet synchronous motor and a cold forming process are used. The results show that the presented method for subset selection can effectively select representative datasets and is on par with state-of-the-art approaches to subset selection. Additionally, the presented method is able to select the subset to represent arbitrary desired pdfs which gives the user much freedom of design. The introduced method for data weighting typically results in significant performance improvements for dynamic models, especially for imbalanced training datasets. Overall, these contributions provide a valuable contribution to the further development of data-driven modeling methods and offer practicable solutions for real-world challenges.In den Ingenieurwissenschaften spielt die Modellierung von komplexen Systemen eine zentrale Rolle. Steigende Rechenleistung und Speicherkapazitäten sowie der Trend zu tiefen neuronalen Netzen führen dazu, dass immer mehr Daten gespeichert werden. Diese Dissertation befasst sich mit zwei wesentlichen Herausforderungen, die sich aus dem Umgang mit großen Datenmengen für die datengetriebene Modellierung ergeben: Erstens, die Auswahl einer Teilmenge, die repräsentativ für den Datensatz ist, aus dem sie ausgewählt wird. Zweitens, der Umgang mit unausgewogenen Datensätzen, das heißt mit Datensätzen, die Bereiche höherer und niedrigerer Punktdichte haben. Die erste Herausforderung wird durch die Entwicklung eines neuartigen Algorithmus zur Auswahl von Teilmengen auf der Grundlage der Kerneldichteschätzung adressiert. Die Methode stellt sicher, dass die ausgewählte Teilmenge repräsentativ für den Originaldatensatz oder eine beliebige gewünschte Verteilung ist. Ein ausgeklügelter und dennoch einfacher Ansatz zur Auswertung der geschätzten Dichte ermöglicht es, Rechenzeit zu sparen. Die zweite Herausforderung wird durch die Einführung einer Datengewichtungsmethode adressiert, die die Standardverlustfunktion erweitert. Die Gewichte für die einzelnen Datenpunkte werden so angepasst, dass Datenpunkte aus Bereichen mit geringerer Punktdichte höher und Datenpunkte aus Bereichen mit höherer Punktdichte niedriger gewichtet werden, um eine ausgewogenere Modellleistung zu gewährleisten. Dieser Ansatz ist unabhängig von der Modellarchitektur und eignet sich für jeden Trainingsalgorithmus. Die Wirksamkeit der entwickelten Methoden wird anhand von Benchmark Datensätzen und realen Anwendungsbeispielen demonstriert. Unter anderem werden die Beispiele der thermischen Modellierung eines Permanentmagnet-Synchronmotors und eines Kaltumformungsprozesses verwendet. Die Ergebnisse zeigen, dass die vorgestellte Methode zur Teilmengenauswahl effektiv repräsentative Datensätze auswählen kann und mit State-of-the-Art-Ansätzen zur Teilmengenauswahl gleichauf liegt. Darüber hinaus ist die vorgestellte Methode in der Lage, die Teilmenge so auszuwählen, dass sie beliebige gewünschte pdfs repräsentiert, was dem Anwender viel Gestaltungsfreiheit gibt. Die vorgestellte Methode zur Gewichtung von Datensätzen zeigt deutliche Verbesserungen in der Leistung der Modelle, insbesondere für unausgewogene Trainingsdatensätze. Insgesamt leisten diese Ansätze einen wertvollen Beitrag zur Weiterentwicklung von datengetriebenen Modellierungsmethoden und bieten praktikable Lösungen für reale Herausforderungen.en620 Ingenieurwissenschaften und zugeordnete TätigkeitenMachine learningDataset selectionData-driven modelingMaschinelles LernenDatensatzselektionDatengetriebene ModellierungPreprocessing for Data-Driven Modeling with Probability Density EstimationDatenvorverarbeitung für datengetriebene Modellierung mittels DichteschätzungDoctoral ThesisOliver Nellesurn:nbn:de:hbz:467-877762193-0538