Understanding images via visual similarity and deep feature representations

Ha, Mai Lan

Citation link: http://dx.doi.org/10.25819/ubsi/7398

Files in This Item:

File	Description	Size	Format
Dissertation_Mai_Lan_Ha.pdf		43.19 MB	Adobe PDF	View/Open

Dokument Type:	Doctoral Thesis
metadata.dc.title:	Understanding images via visual similarity and deep feature representations
Other Titles:	Über das Verständis von Bildern durch visuelle Similaritäten und tiefgehende Merkmalsrepräsentationen
Authors:	Ha, Mai Lan
Institute:	Department Elektrotechnik - Informatik
Free keywords:	Visual similarity, Visual perception, Image understanding, Deep feature representations, Deep learning
Dewey Decimal Classification:	004 Informatik
GHBS-Clases:	TVUC TVVC TUHD
Issue Date:	2020
Publish Date:	2021
Abstract:	Machine Learning and Computer Vision are often thought to relate only to machines, involving the development of algorithms and teaching computers to perform various tasks. However, human vision and perception are hidden aspects that influence how an algorithm should function, or how we would want a computer to "see". The two goals of this thesis are the study of perceptual visual similarity and that of feature representations from Deep Convolutional Neural Networks (DCNNs). Assessing visual similarity in-the-wild, a core ability of the human visual system is a challenging problem for Computer Vision because of its subjective nature and its ambiguity in the problem definition. Therefore, the first goal of the thesis is to study the fundamental problems of visual similarity. We raise the question if we could break down different aspects of similarity that make their study more tractable and computationally feasible. We study color composition similarity in-depth, from human evaluation to its modeling using DCNNs. We apply the models to create a new global color similarity descriptor and color transfer method. We then couple color composition and category similarities to define a new model for visual similarity. The combination leads to better results in fine-grained image retrieval. Our approach is a proof of concept, showing that we can make subjective phenomena scientifically tractable. We also developed a perceptual-inspired metric to evaluate intrinsic imaging methods resulting in a fairer evaluation compared to previous metrics. The second goal of the thesis focuses on investigating what features are embedded in different parts of a DCNN, how we could use them efficiently, and how we can improve these features. On the one hand, the low to mid-level features, ranging from image pixels to different layers of convolutional responses in a DCNN, are used in perceptual metrics and visual similarity. On the other hand, we discover shape information "hidden" in the high-level features of a DCNN trained for classification. The shapes extracted from the DCNN are used to perform weakly supervised semantic segmentation that works well beyond the classes on which the DCNN was trained. We also find a way to improve the discriminative ability of deep classification features by incorporating Linear Discriminant Analysis objectives into a DCNN training optimization. Our proposed optimization method leads to better classification results, especially for fine-grained classification, which is challenging even for non-expert humans. The studies on perceptual visual similarity and deep feature representations in the thesis shed new light on image understanding, which covers different aspects of images such as color, shape, and category. Maschinelles Lernen und Sehen werden oft so verstanden, als beträfen sie nur Maschinen und die Entwicklung von Algorithmen, welche einem Computer verschiedenste Aufgaben ermöglichen. Jedoch haben auch das menschliche Sehen und die menschliche Wahrnehmung einen Einfluss auf die Zielvorgaben, wie solche Algorithmen funktionieren sollen und wie ein Computer "sehen" soll. Die zwei Ziele dieser Dissertation sind daher die Untersuchung von visueller Ähnlichkeit (visual similarity) nach Gesichtspunkten menschlicher Warnehmung und die Untersuchung von Feature-Darstellungen in tiefen Faltungsnetzwerken (DCNNs). Die Bewertung von visueller Ähnlichkeit zwischen Bildern ist zwar eine Kernaufgabe der menschlichen Wahrnehmung, aber eine große Herausforderung für Maschinelles Sehen in echten Anwendungen, aufgrund der Subjektivität und Mehrdeutigkeit der Problemdefinition. Daher ist das erste Ziel dieser Arbeit eine grundlegende Studie von visueller Ähnlichkeit. Wir untersuchen eine Abgrenzung verschiedener Aspekte von Ähnlichkeit, die eine handhabbare und realisierbare Untersuchung ermöglicht. Wir diskutieren Ähnlichkeit auf Basis von Farbkomposition im Detail, anfangend bei menschlicher Evaluierung, bis hin zur Modellierung mithilfe von DCNNs. Wir benutzen diese Modelle zur Schaffung sowohl einer neuer Metrik für global Farbähnlichkeit als auch eines Farbtransfermodells. Weiterhin verknüpfen wir Farbkomposition und Objektähnlichkeit, um ein neues Modell für visuelle Ähnlichkeit zu definieren. Diese Kombination führt in der Anwendung, etwa im Bereich der Bildsuche auf einer feineren Unterscheidungsebene (fine-grained image retrieval) zu verbesserten Ergebnissen. Unser Ansatz ist ein Prototyp, der zeigt, wie subjektive Wahrnehmung, für Maschinen greifbar gemacht werden kann. Schliesslich entwickeln wir auch ein wahrnehmungs-inspirierte Metrik zur Evaluierung von intrinsischen bildgebenden Verfahren, die im Gegensatz zu besherigen Metriken, genauere Methodikvergleiche ermöglicht. Das zweite Ziel dieser Dissertation bildet die Untersuchung von Merkmalsrepräsentationen in verschiedenen Teilbereichen eines DCNNs, und stellt die Frage, wie diese Merkmale verstanden, effizient benutzt und verändert werden können. Merkmale aus den unteren und mittleren Schichten eines DCNNS, angefangen bei den Bildpixeln hin zu den Faltungsergebnissen der frühen Schichten, können gut als Metriken für Wahrnehmung und visuelle Ähnlichkeit verwendet werden. Bei Analyse der späteren Schichten eines DCNNS für Klassifizierung finden wir jedoch heraus, dass in diesen Gestaltsinformationen "versteckt" sind. Die Extraktion dieser Informationen führt uns zu einer schwach beaufsichtigten (weakly-supervised) Segmentierungsmethodik, die sogar jenseits der Klassen funktioniert, mit denen das DCNN trainiert wurde. Außerdem betrachten wir die diskriminativen Fähigkeiten dieser späteren Klassifikationsmerkmale und diskutieren eine Verbesserung der Separation durch Verwendung von Methoden der linearen Diskriminationsanalyse während des Trainings. Unsere vorgeschlagene Optimierungsmethode führt zu verbesserten Klassifikationsergebnissen, besonders bei der Klassifikation auf einer feineren Unterscheidungsebene, die sogar für menschliche Experten schwierig ist. Diese Untersuchungen von visueller Ähnlichkeit und von tiefen Merkmalsrepräsentationen in DCNNs zeigen neue Wege zu einer Theorie von Bildverständnis auf, die verschiedenste Aspekte von Bildern, wie Farben, Gestalt und Kategorien einschließt.
DOI:	http://dx.doi.org/10.25819/ubsi/7398
URN:	urn:nbn:de:hbz:467-17743
URI:	https://dspace.ub.uni-siegen.de/handle/ubsi/1774
License:	http://creativecommons.org/licenses/by-nc-nd/4.0/
Appears in Collections:	Hochschulschriften

This item is protected by original copyright

View License

Show full item record

Page view(s)

588

checked on Nov 25, 2024

Download(s)

377

checked on Nov 25, 2024

Google Scholar^TM

Check

Altmetric

This item is licensed under a Creative Commons License

Opus Siegen

Files in This Item:

Page view(s)

Download(s)

Google ScholarTM

Altmetric

Google Scholar^TM