Hochschule Aalen - Abschlussarbeiten

Promotionsthemen

Promotionsthemen sind auf Anfrage und im persönlichen Gespräch verfügbar.

Abschlussarbeiten

Abschlussarbeiten am Fachgebiet sind Themen mit einer hohen wissenschaftlichen Relevanz und Neuheitswert. Metadaten der Abschlussarbeiten werden grundsätzlich im Hochschulschriftenserver der Hochschule Aalen -OPUS- hinterlegt. Bei guter Bearbeitung besteht das Potenzial, dass diese im ersten Journal der Hochschule Aalen -Aalener Beiträge zu Komplexen Systemen- veröffentlicht wird. Rahmenbedingungen, die bei der Bearbeitung zu beachten sind, werden grundsätzlich bei Vergabe der Themen besprochen. Bewerbung für auf die Themen erfolgt über die angegebene Email-Adresse.

Themen können:

verkürzt als Bachelorarbeit oder in vollen Umfang als Masterarbeit vergeben werden
in deutsch oder englisch bearbeitet werden.
in Kooperation mit Unternehmen geschrieben werden.

Aktuelle Themen finden Sie nach Themengebiet aufgeteilt im unteren Segment.

Visual Analytics und VR

Visual Analytics mit VR
Visual Analytics ist ein interdisziplinärer Forschungsbereich, der sich mit der visuellen Analyse von Daten und deren Zusammenhänge beschäftigt. Mittels unterschiedlicher Repräsentationsformen von Rohdaten, abgeleiteten Statistiken und Aggregationen sollen Menschen ermöglicht werden komplexe Zusammenhänge und Effekte zu erkennen, Hypothesen zu bilden und ein allgemeines Gefühl für die Daten durch Exploration zu gewinnen. Als Virtual Reality wird eine interaktive Umgebung verstanden, die in Echtzeit mittels Computern generiert wird und Eigenschaften der physischen Welt wiedergibt. Eine Art und Weise diese Immersion zu erzeugen, ist die Darstellung der virtuellen Welt über Headsets, die einem Menschen die dreidimensionale Wahrnehmung seiner Umgebung durch Sehen und Hören ermöglichen.
Traditionelles Visual Analytics nutzt nur begrenzt die Sinne des Menschen. Beispielswiese wird die menschliche Wahrnehmung auf eine zweidimensionale Darstellung beschränkt und die Manipulation der Daten und deren Repräsentationen auf Tastatur und Maus. Methoden und Werkzeuge der Virtual Reality bieten die Perspektive mehr den Sinnen des Menschen zur Analyse zur Verfügung zu stellen.
Ziel dieser Abschlussarbeit ist die Exploration und Bewertung unterschiedlicher Darstellungsformen für Daten aus dem Bereich Visual Analytics hinsichtlich ihrer Tauglichkeit in der Virtual Reality. Dazu sind zunächst Methoden aus dem Bereich Visual Analytics darzustellen. Diese Darstellungsformen sind zu bewerten, hinsichtlich einem Mehrwert bei einer Umsetzung in der Virtual Reality. Danach soll eine Auswahl an Darstellungsformen umgesetzt und in der Virtual Reality erprobt werden.
Ungefäre Aufwandsaufteilung:
Literaturrecherche 20%, Umsetzung 60 %, Konzeption/Bewertung 20%
Exploration hochkomplexer Stücklistenstrukturen in der Virtuellen Realität
Stücklisten von Produkten mit einer hohen Varianz, sind komplexe hierarchische Strukturen, die mit konventionellen Werkzeugen schwer zu verstehen und analysieren sind. Dies ist zumindest teilweise durch die Organisationsstruktur im Entwicklungsprozess bedingt, bei der Verantwortlichkeiten getrennt werden. Insbesondere im Bereich Varianten-/Komplexitäsmanagement besteht jedoch der Bedarf, diese Strukturen ganzheitlich zu verstehen und optimieren. Derzeitige Visualisierungsmöglichkeiten sind hinsichtlich ihrer Leistungsfähigkeit und Handhabbarkeit in der Nützlichkeit beschränkt. Eine Möglichkeit diese Beschränkungen zu entgegnen wäre die Visualisierung von Stücklisten in der Virtual Reality.
Als Virtual Reality wird eine interaktive Umgebung verstanden, die in Echtzeit mittels Computern generiert wird und Eigenschaften der physischen Welt wiedergibt. Eine Art und Weise diese Immersion zu erzeugen, ist die Darstellung der virtuellen Welt über Headsets, die einem Menschen die dreidimensionale Wahrnehmung seiner Umgebung durch Sehen und Hören ermöglichen.
Ziel dieser Abschlussarbeit ist die Visualisierung von Variantenreichen hierarchischen Strukturen, wie etwa komplexen Stücklisten, in der Virtual Reality. Erprobt werden soll ob die 3-dimensionale Repräsentation und Manipulation einen Mehrwert gegenüber 2-dimensionale Ansätze bieten kann. Teil der Abschlussarbeit ist somit die Umsetzung einer Datenvisualisierung in einem VR-Framework.
Ungefäre Aufwandsaufteilung:
Literaturrecherche 10%, Konzeption 20%, Umsetzung 50%, Bewertung 20%

Datenqualität insb. fehlende Daten

Imputationsmethoden zur Behandlung fehlender Werte und deren Verfügbarkeit in Cloud-Plattformen
Die Anwendung von Algorithmen, mit denen die vorhandenen Daten um Schätzungen für die fehlenden Werte ergänzt werden, so dass eine vollständige Datenmatrix resultiert, heißt Imputation. Somit können Verfahren, die für vollständige Daten entwickelt worden sind, ohne den Verlust von den Informationen und minimaler Verzerrungen in den Daten angewendet werden. Dies ist insbesondere für die Entwicklung von Machine Learning Modellen wichtig.
Zunächst ist der Stand der Forschung im Bereich der Imputationsverfahren zu ergründen. Hauptaugenmerk hierbei sollten aktuelle Entwicklungen sowie die Beurteilung der Güte dieser Imputationsverfahren in entsprechenden Simulationsstudien sein. Im empirischen Teil der Arbeit sind Cloud-Plattformen systematisch auf die Verfügbarkeit von Imputationsmethoden in deren Analysediensten hin zu untersuchen. Speziallösungen sind hervorzuheben und die Ergebnisse kritisch zu würdigen.
Ungefähre Aufwandseinschätzung:
Markt- & Literaturrecherche 100%
Wichtungsselektion bei KNN-Imputationsverfahren
Die Ersetzung von fehlenden Werten mit Schätzungen, auch Imputation genannt, ist in jeder Datenanalyse ein wichtiger Schritt um die Datenqualität zu erhöhen. Bei der Imputation kommen unterschiedliche Methoden zum Einsatz, die auch zur Prognosemodellbildung, wie etwa beim Machine Learning, verwendet werden. Eine solcher Methoden ist die K-Nächste-Nachbarn Klassifikation (KNN), bei der Imputation auch Hot-Deck-Verfahren genannt. Hier werden für unvollständige Objekte (Empfänger) ähnliche, vollständige Objekte (Spender) in der Datenbasis gesucht, so dass von Spendern die notwendigen Werte auf die Empfänger kopiert werden können. Ähnlichkeit zwischen Spendern und Empfängern wird meist über eine Distanzfunktion berechnet. Mittels dieser Distanzfunktion werden Merkmalsunterschiede mit unterschiedlichem Gewicht zusammengefasst. Diese Gewichte werden zumeist über Expertenwissen oder um Skalenunterschiede zu nivellieren festgelegt. Das ist bei der Anwendung von KNN zur Imputation aber unzureichend. Bei der Imputation müsste die Ähnlichkeit, und somit die Gewichtung, in Bezug zu den fehlenden Werten berechnet bzw. ausgewählt werden.
Ziel dieser Abschlussarbeit ist es einen Ansatz der zielgerichteten Gewichtsauswahl zu entwickeln und erproben. Zunächst soll mit einer Literaturreschere bestehende Ansätze gefunden und dargestellt werden. Danach ist eine eigene Methode zur Wichtungsselektion darzustellen. Im praktischen Teil sollen die vorhandenen Methoden in Software umgesetzt werden, und mittels einer Simulationsstudie deren Auswirkungen auf die Datenqualität verglichen werden. Zuletzt sollen die Ergebnisse kritisch gewürdigt werden.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 40%, Simulation od. Methodenentwicklung 60%
Optimale Suchstrategien in der Nearest Neighbor Imputation
Imputation ist die Vorhersage und das Ersetzten von fehlenden Werten in einer Datenbasis, mit dem Zweck die Datenqualität zu erhöhen. Als vorgelagerter Prozessschritt ist eine Erhöhung der Datenqualität –und somit auch die Imputationsgüte– maßgeblich für die Qualität der Modelle, die auf Basis der Daten entwickelt werden.
Im Falle einer Nearest Neighbor Imputation erfolgt das Ersetzen der Daten prinzipiell wie folgt: Zunächst wird ein Objekt mit fehlenden Werten ausgewählt (Empfänger). Für Empfänger wird ein ähnliches Objekt aus der Datenbasis ausgewählt. Dieses zweite Objekt (Spender) muss Werte dort aufweisen, wo sie in dem Empfänger fehlen. Zuletzt werden die entsprechenden Werte vom Spender kopiert, um den Empfänger zu vervollständigen. Alle Schritte werden wiederholt, bis die Datenbasis vollständig ist. Der Vorgang, einen passenden Spender zu finden, ist ein berechnungsintensiver Prozess, bei dem die Anzahl der betrachteten Ähnlichkeiten quadratisch mit der Anzahl der Objekte steigt. Somit ist eine Verbesserung des Suchverfahrens von Interesse. Ein Ansatzpunkt bietet der Verzicht auf eine vollständige Enumeration der Objektähnlichkeiten unter Betrachtung von Ansätzen aus der Suchtheorie.
In dieser Abschlussarbeit sollen zunächst Grundlagen der Nearest Neighbor Imputation und deren Ablauf dargestellt werden. Danach sollen Ansätze aus der Suchtheorie, insb. „early-„ oder „optimal-stopping“ dargestellt werten, so dass ein Transfer auf die genannten Imputationsverfahren möglich ist. Basierend hierauf soll eine Simulationsstudie durchgeführt werden. In dieser sollen Ergebnisse unterschiedlicher „optimal-stopping“ Strategien in der Suche nach einem Spender, mit Ergebnissen der vollständigen Enumeration verglichen werden.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 30%, Simulation/Anwendung/Implementierung 70%
Prädiktive Spendereinschränkung bei der Nearest Neighbor Imputation mit der Minkowski Ungleichung
Die Ersetzung von fehlenden Werten mit Schätzungen, auch Imputation genannt, ist in jeder Datenanalyse ein wichtiger Schritt um die Datenqualität zu erhöhen. Bei der Imputation kommen unterschiedliche Methoden zum Einsatz, die auch zur Prognosemodellbildung, wie etwa beim Machine Learning, verwendet werden. Eine solcher Methoden ist die K-Nächste-Nachbarn Klassifikation (KNN), bei der Imputation auch Hot-Deck-Verfahren genannt. Hier werden für unvollständige Objekte (Empfänger) ähnliche, vollständige Objekte (Spender) in der Datenbasis gesucht, so dass von Spendern die notwendigen Werte auf die Empfänger kopiert werden können. Ähnlichkeit zwischen Spendern und Empfängern wird meist über eine Distanzfunktion berechnet. Wird eine Lp-Norm als Distanzfunktion verwendet gilt die Minkowski Ungleichung. Diese gibt Aufschluss über Relationen von Distanzen zueinander und geltenden Obergrenzen. Da in den meisten Nearest Neighbor Imputationen stets das ähnlichste Objekt verwendet wird, könnte eine systematische Anwendung der Minkowski Ungleichung –unter bestimmten Bedingungen– zu einer Reduktion des Rechenaufwandes führen.
Ziel dieser Abschlussarbeit ist es herzuleiten, unter welchen Bedingungen (bspw. Anzahl Objekte/Merkmale) die Anwendung der Minkowski Ungleichung zu einer reduzierten Anzahl an Berechnungen führt. Dieser Ansatz kann durch eine probabilistische Betrachtungen ergänzt werden. Der entwickelte Ansatz ist in eine Implementierung zu überführen. Zuletzt ist anhand gekonnt ausgewählter Datensätze die Eigenschaften des Ansatzes in einem Benchmark zu zeigen.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 30%, Simulation/Anwendung/Implementierung 70%
Akzeptanz von Missing Data Verfahren in wissenschaftlichen Studien
Fehlende Daten stellen nahezu immer ein Problem in der wissenschaftlichen Forschung dar. Es gibt verschiedene Ansätze zum Umgang mit diesen fehlenden Werten. Beispiele hierfür sind Eliminierungsverfahren, bei denen Objekte bzw. Merkmale von der Untersuchung ausgeschlossen werden, Imputationsmethoden, bei denen fehlende Werte durch Schätzungen ersetzt werden, und modifizierte Analyseverfahren, die ausgehend von einer unvollständigen Datenmatrix unmittelbar zu den Analyseergebnissen führen.
Ziel dieser Arbeit ist es zunächst, die möglichen Methoden zur Behandlung fehlender Daten kurz zu systematisieren. Im Hauptteil der Arbeit soll dann eine empirische Untersuchung von Artikeln verschiedener Journale durchgeführt werden, um die Akzeptanz und das Anwendungsspektrum der im theoretischen Teil dargestellten Methoden in realen empirischen Untersuchungen zu analysieren.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 100%
Nutzung von Missing Data Verfahren in der Praxis
Fehlende Daten stellen in nahezu jedem Unternehmen eine Herausforderung dar. Diese Herausforderungen verschärfen sich, wenn die Digitalisierung im Unternehmen und von den Produkten vorangetrieben werden soll. Methoden zum Umgang mit fehlenden Werten werden heutzutage in nahezu jeder Software des Datenmanagements zur Verfügung gestellt. Während die Methoden unterschiedlich geeignet sind um die Datenqualität zu erhöhen, ist die Anwendung der Methoden eine Frage der Unternehmenseigenen Prozesse und Wahrnehmung der Herausforderung überhaupt.
Ziel dieser Arbeit ist es zu ermitteln, wie derzeit mit fehlenden Daten in Unternehmen umgegangen wird. Hierzu gehört eingangs eine Literaturanalyse und -systematisierung hinsichtlich vorheriger Untersuchungen mit ähnlicher Fragestellung. Basierend hierauf –und zusätzlichen Überlegungen– soll eine Befragung von Unternehmen konzeptioniert und durchgeführt werden. Zuletzt soll die Befragung ausgewertet werden.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20%, Umfrageentwicklung 30%, Umfragedurchführung 50%
Optimale Verfahren bei ganzzahliger Optimierung: Vorteile und Anwendungsbereiche
Ganzzahlige Optimierungsprobleme stellen eine Klasse von häufig anzutreffenden Problemen dar. Zur Lösung dieser Optimierungsprobleme existieren eine Reihe an Heuristiken und optimalen Algorithmen. Für bestimmte Problemstellungen und der damit verbundenen Parametrisierung des Optimierungsproblems wurden auch spezielle Algorithmen konzipiert, die das entsprechende Problem lösen. Diese Algorithmen weisen eine geringere Komplexität als die allgemeinen optimalen Verfahren auf, sind jedoch in ihrem Anwendungsgebiet eingeschränkt.
Ziel dieser Abschlussarbeit ist es darzustellen, welche allgemeinen und speziellen Algorithmen zur Lösung ganzzahliger Optimierungsprobleme existieren. Die Algorithmen sollen gemäß zwei Kriterien systematisiert werden. Erstens sollen sie nach bestimmten Problemstellungen, auf die sie Anwendung finden, differenziert werden. Zweitens sollen Erkenntnisse über Zeit- bzw. Platzkomplexität, die mittels der Komplexitätstheorie erarbeitet wurden, in die Betrachtung einfließen. Abschließend sind konkrete Mehrwerte einer optimalen Lösung gegenüber der Ergebnisse von Eröffnungsverfahren bei gewissen Standardkonstellationen zu bewerten.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 40%, Anwendung/Simulation 60%
Parallelberechnungen in der Nearest Neighbor Imputation
Die Ersetzung von fehlenden Werten mit Schätzungen, auch Imputation genannt, ist in jeder Datenanalyse ein wichtiger Schritt um die Datenqualität zu erhöhen. Bei der Imputation kommen unterschiedliche Methoden zum Einsatz, die auch zur Prognosemodellbildung, wie etwa beim Machine Learning, verwendet werden. Eine solcher Methoden ist die K-Nächste-Nachbarn Klassifikation (KNN), bei der Imputation auch Hot-Deck-Verfahren genannt. Hier werden für unvollständige Objekte (Empfänger) ähnliche, vollständige Objekte (Spender) in der Datenbasis gesucht, so dass von Spendern die notwendigen Werte auf die Empfänger kopiert werden können. Ähnlichkeit zwischen Spendern und Empfängern wird meist über eine Distanzfunktion berechnet. Somit ist klar, dass für jede Spender/Empfänger-Kombination die Distanz berechnet werden muss, um eine Distanzmatrix –wenn auch implizit– zu berechnen. Diese Berechnungen lassen sich parallelisieren und somit auf moderner GPU-Hardware betreiben.
Ziel dieser Abschlussarbeit ist es die Nearest Neighbor Imputation unter Nutzung von Nvidia CUDA zu implementieren. Hierzu sind zunächst grundlegende Prinzipien und Voraussetzungen der Parallelprogrammierung und Nearest Neighbor Imputation darzustellen. Danach ist eine entsprechende Software Architektur mit sinnvoller Parallelisierungsmethodik zu erarbeiten. Diese ist dann zu Implementieren. Abgerundet wird im Abschluss die Abschlussarbeit mit einem Benchmark der sequenziellen und parallelen Berechnung in begrenzten Szenarien.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20%, Implementierung 70%, Benchmarking 10%
Suchraumsynchonisation zur gleichzeitigen Editierung und Imputation von Daten
Imputation ist die Ersetzung von fehlenden mit plausiblen Werten in einer Datenmatrix. Imputation erfolgt häufig nach Anwendung eines Edit-Systems zur Bereinigung der Daten von unplausiblen/-möglichen Werten oder Wertekombinationen in der Datenmatrix. Da selbst eine simultane Imputation mehrerer Merkmale pro Objekt nicht garantieren kann, dass die Objekte mit imputierten Werten ohne Korrektur das Edit-System passieren, kann ein iterativer Edit-Imputation Prozess entstehen. Dieses Verhalten, der kombinierten Algorithmenanwendung ist nicht erstrebenswert und fehlerbehaftet.
Regeln des Edit-Systems können als (lineare) Restrektionen des zulässigen Werteraums für eine folgende Imputation verstanden werden. Im Falle einer Nearest Neighbor Imputation wird der Parameterraum zusätzlich auf die existierenden Wertekombinationen eingeschränkt. Es entsteht somit ein Zuordnungsproblem mit Zielfunktion, das sich mit entsprechenden Algorithmen lösen lässt.
Aufgabe dieser Abschlussarbeit ist die Darstellung des Problems mittels relevanter Literatur, Aufstellung des Optimierungsproblems mit einer einheitlichen Notation sowie die Demonstration der Funktionsweise anhand eines ausgewählten Datensatzes.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20%, Methodenentwicklung 60%, Validierung 20%
Nutzung von Entscheidungsbäumen zur Imputation unter Restriktionen eines Edit-Systems
Imputation ist die Ersetzung von fehlenden mit plausiblen Werten in einer Datenmatrix. Imputation erfolgt häufig nach Anwendung eines Edit-Systems zur Bereinigung der Daten von unplausiblen/-möglichen Werten oder Wertekombinationen in der Datenmatrix. Da selbst eine simultane Imputation mehrerer Merkmale pro Objekt nicht garantieren kann, dass die Objekte mit imputierten Werten ohne Korrektur das Edit-System passieren, kann ein iterativer Edit-Imputation Prozess entstehen. Entscheidungsbäume sind verschiedene Methoden zur Ermittlung einer Klassenzugehörigkeit basierend auf einer Lernprobe und lassen sich somit grundsätzlich auch zur Ermittlung fehlender kategorealer Daten verwenden.
Zuerst sind in der Arbeit Edit-Systeme sowie Imputationsmethoden, die in Kombination mit Edit-Systemen verwendet werden, zu beschreiben. Ferner ist auf die Konstruktion von Entscheidungsbäumen einzugehen. Daraufhin ist gedanklich zu untersuchen, welche Bedingungen ein Entscheidungsbaum zu erfüllen hat, um Edit-System konform zu imputieren. Die theoretisch erarbeiteten Konzepte sind danach mittels Beispielen zu plausibilisieren.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20%, Implementierung/Simulation 60%, Validierung 20%
Feature Engineering bei fehlenden Daten
Feature Engineering ist ein notwendiger Schritt in der Datenvorverarbeitung, in dem sich mit der Entwicklung, Extraktion und Ableitung neuer Merkmale aus den Rohdaten beschäftigt. Dieser Schritt, kann aber nicht singulär betrachtet werden, sondern muss in Abhängigkeit anderer Prozessschritte gesehen und durchgeführt werden. Einer dieser anderen Prozessschritte ist die Behandlung von fehlenden Daten. So ist es, dass die Reihenfolge von Feature Engineering und Behandlung Fehlender Werte die resultierende Datenmatrix beeinflusst. Gar kann erwartet werden, dass in einer wiederholten Durchführung die Resultate ändern. Dies ist nicht notwendiger Weise nachteilig, wirft aber dennoch einige Fragen auf, die von Relevanz sind.
Im Rahmen dieser Abschlussarbeit ist die Wirkbeziehung zwischen Feature Engineering und Behebung fehlender Daten zu erkunden. Erarbeitet werden soll eine stimmige Gesamtvorgehensweise anhand der Antworten zu folgenden Fragen: Welche Merkmale lassen sich in der Präsenz fehlender Werte ableiten? Welche zusätzlichen Merkmale lassen sich nach einer Behebung fehlender Werte ableiten? Welche abgeleiteten Merkmale lassen sich wie am besten in der Behebung fehlender Werte einsetzen? Unter welchen Bedingungen darf dies geschehen (bspw. relevante Ausfallmechanismen) und welche Konsequenzen drohen bei Nichtbeachtung? Erhöht eine iterative Durchführung die Datenqualität?
In der Bearbeitung wird erwartet, dass zunächst in der Literatur erwähnte Ansätze des Feature Engineerings recherchiert und dargestellt werden. Hervorzuheben welche Ansätze mit bzw. ohne fehlende Daten funktionieren. Diese sind durch eigene methodische Überlegungen zu ergänzen. Hieraus ist eine ganzheitliche Vorgehensweise zu definieren, die Datengetrieben validiert wird.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 30%, Methodenentwicklung/ Entwicklung eines systematisierten Ansatz 40%, Validierung 30%

Benford's Law und Anpassungstests

Einfluss der Null-Verteilung auf die Sensitivität eines Anpassungstests
In 2013 führte Joenssen die Jp2 Statistik als Anpassungstest ein, mittels dem festgestellt werden kann, ob eine Verteilung konform mit dem Benford’schen Gesetzt ist. Mittels der Jp2 Statistik wird überprüft, ob die Korrelation zwischen soll und ist Verteilung der ersten Ziffern hinreichend groß ist. Diese Methodik lässt sich ohne Beschränkung der Allgemeinheit auf andere diskrete Verteilungen ausweiten.
Ziel dieser Abschlussarbeit ist zu untersuchen, wie sich unterschiedliche Null-Verteilungen auf die Güte des Anpassungstests auswirken. Zu manipulieren sind wesentliche Eigenschaften, die eine diskrete Verteilung aufweisen kann. Als Vergleichsmaßstab sollen die Ergebnisse von Pearsons Chi-Quadrat und dem Kolmogorov-Smirnov Test dienen.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 10%, Simulation & Auswertung 90%
Identifizierung einflussreicher Werte auf die Ablehnung der Null-Hypothese bei Anpassungstests
Benford’s Gesetz wird nicht nur von Wirtschaftsprüfern, sondern auch von Steuerbehörden verwendet um Betrug zu identifizieren. Betrachtet werden stets Abweichungen zwischen den Ist- und Soll-Häufigkeiten, die laut Benford’s Gesetz gelten. In beliebten Betrugsmethoden werden die Beträge von tatsächlichen Rechnungen verändert, zusätzliche Rechnungen erfunden, oder Buchungen gelöscht. Dies äußert sich in der empirischen Verteilung der Daten wie folgt: Klassenhäufigkeiten werden zu Gunsten anderer kleiner, Klassenhäufigkeiten erhöhen sich oder Klassenhäufigkeiten reduzieren sich. Anpassungstests reagieren unterschiedlich sensibel auf Veränderungen bzw. Abweichungen in den Klassenhäufigkeiten. Daher ist es geboten diese Effekte näher zu untersuchen.
Gegenstand dieser Abschlussarbeit ist die Untersuchung welche Werte in einem Datensatz, der Benford’s Gesetz genügt, einen überproportionalen Einfluss auf die Spezifität des ausgewählten Anpassungstests hat. In anderen Worten: welche Werte lassen sich „sicher“ manipulieren ohne einen Gesamtverdacht zu erregen. Die Eigenschaften der entstehenden Vorgehensweisen sollen mittels einer Simulationsstudie belegt werden. In einer Erweiterung ist zu betrachten, welche Vorgehensweisen durch eine Betrachtung der ersten zwei Ziffern aufgedeckt werden können.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20-30%, Methodenentwicklung 40%, Methodenvergleich/-demonstration 30%-40%
Sensitivität von Benford Tests auf Nutzung mehrerer Ziffern
Benford’s Gesetz wird nicht nur von Wirtschaftsprüfern, sondern auch von Steuerbehörden verwendet um Betrug zu identifizieren. Gemäß Benford‘s Gesetz genügen die Anfangsziffern einer Menge an Zahlen einer bestimmten Verteilung. Während die Verteilung der ersten Ziffer noch stark monoton fallenden ist, nähert sich die Verteilung aller weiteren Ziffern einer Gleichverteilung an. Somit reduziert sich die zusätzliche Information (bspw. gemessen an der Varianz der Ziffernverteilunng), bei Hinzunahme einer weiteren Ziffer auf null. Somit ist es zumindest nicht hinderlich für die Sensitivität eines Anpassungstests, eine weitere Ziffer auf Abweichungen zu prüfen. Gleichwohl erhöht sich aber die Anzahl der Klassen, bei Betrachtung der gemeinsamen Ziffernverteilung, exponentiell. Was zu einer exponentiellen Reduktion der Klassenbesetzung führt. Auch eine einzelne Betrachtung der Ziffernverteilung bietet nur bedingt Abhilfe. Hier steigt zwar die Klassenanzahl nur linear, aber die Spezifität sinkt exponentiell. Es ergibt sich somit die Frage, welche Anzahl an Ziffern betrachtet werden sollte, sofern eine maximale Sensitivität im verwendeten Anpassungstest angestrebt wird.
Gegenstand dieser Abschlussarbeit ist die Beantwortung der vorherigen Frage. Hierzu soll eine Simulationsstudie mit einer Auswahl an alternativen Verteilungen und Anpassungstests durchgeführt und ausgewertet werden. Mit entsprechenden Literaturgrundlagen ist sich auseinander zu setzen.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 20%, Umsetzung 40%, Simulation 40%

Ausgewählte Fragen des Maschinellen Lernens

Reduktionsverfahren für Boolesche Funktionen bei Random Forests Modellen
Entscheidungsbaumverfahren sind Machine Learning Algorithmen, mittels derer Prognosemodelle aus Daten erstellt werden können. Sie zeichnen sich insbesondere durch eine hohe Interpretierbarkeit der Ergebnisse und einer guten Prognosegüte, bei nichtlinearen Beziehungen in der Datenbasis, aus. Aufbauend auf den Entscheidungsbaum Verfahren sind Random Forests eine der mächtigsten Machine Learning Algorithmen, die heute zur Verfügung stehen. Hier wird auf systematische Art und Weise ein Ensemble von Entscheidungsbäumen gebildet. So kann die Prognosegüte zu Lasten der Interpretierbarkeit erhöht werden. Random Forests können –im Gegensatz zum einzelnen Entscheidungsbaum– nicht mehr als von Menschen einfach zu verstehenden Regelsatz dargestellt werden. Die Regeln eines einzelnen Entscheidungsbaums des Ensembles lassen sich jedoch als einfacher Satz Boolscher Funktionen darstellen. Diese Funktionen lassen sich wiederum über bestimmte Verfahren komprimiert darstellen (Binäres Entscheidungsdiagramm, Negationsnormalform, Zhegalkin-Polynome, etc.). Ein Transfer auf den Gesamtsatz Boolscher Funktionen, der sich aus dem Ensemble ergibt, ist Aufgrund etwaiger Widerspruche nicht trivial.
Ziel dieser Abschlussarbeit ist es darzulegen, wie ein Satz Boolscher Funktionen mit Widersprüchen komprimiert und auf eine interpretierbare Weise dargestellt werden kann. Angewendet werden soll das erarbeitete Prinzip auf Ergebnisse des Random Forests Algorithmus. Hierfür sollen zunächst Grundlagen von Entscheidungsbäumen und Random Forests, mit einem speziellen Augenmerk auf die Interpretationsmöglichkeiten der Modellergebnisse, dargestellt werden. Daneben sollen Repräsentations- und Komprimierungsverfahren für Boolesche Funktionen beschrieben werden, wobei speziell auf die Möglichkeiten zum Umgang mit Widersprüchen erfolgen soll. Zuletzt soll in einer Synthese, das Erarbeitete auf die Ergebnisse von Random Forests angewendet werden und eine kritische Würdigung erfolgen.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 40%, Implementierung 40%, Validierung 20%

Spezielle Anwendungen

Bewertung der Menüstruktur bei Fast Food unter ökonomischen Gesichtspunkten
Alle Gesellschaften, insbesondere jene die Urban geprägt sind, müssen sich derzeit neuen Herausforderungen in Mobilität, Kommunikation, Umwelt, Ernährung und Gesundheit stellen. Große Gesellschaftliche Themen, wie Digitalisierung und der assoziierte Effizienzdruck aber auch die verstärkte Annahme neuer Rollenbilder in der Familie führen zu einer Neubewertung der Freizeit. Folglich ist eine größere gesellschaftliche Akzeptanz und Nutzung von Fast Food verständlich. Fast Food kann aber –aufgrund der Zubereitung– gesundheitsschädlich sein. Neben hohem Energie- und Salzgehalt spielten niedrige Ballaststoffanteile und Vitaminkonzentrationen eine Rolle. Um diesen entgegenzutreten haben zahlreiche Fast Food Ketten ihre Menüs überarbeitet um gesunde Alternativen bieten zu können. Insgesamt stellen die Menüs sich somit ausgewogener hinsichtlich relevanter Metriken –wie etwa dem HEI– dar.
Eine gleichförmige Bewertung des Menüs –als ob alle Menüangebote gleich häufig gewählt werden– verkennt jedoch die tatsächliche Auswirkung der Menüänderung auf die Kunden, und somit die Bevölkerung insgesamt. Vielmehr spielt die tatsächliche Auswahl der Menüpunkte durch den Kunden eine Rolle um das Angebot zu bewerten. Diese Auswahl richtet sich –insbesondere für niedrige sozioökonomische Schichten– nach der Preisgestaltung.
Ziel dieser Abschlussarbeit ist die Anwendung einer Bewertungsmethodik auf die Preisstruktur der Menüs von Fast Food Restaurants. Hierzu ist zunächst eine Literaturrecherche durchzuführen, um sich mit relevanten Bewertungskriterien im Ernährungsbereich bekannt zu machen. Danach müssen Daten zum Preis und Nährwerten unterschiedlicher Menüelemente erhoben werden. Im Anschluss soll die neue Bewertungsmethodik angewendet und die Ergebnisse bewertet werden.
Ungefähre Aufwandseinschätzung:
Literaturrecherche 30%, Datenerhebung 15%, Implementierung 30%, Auswertung 15%

Prof. Dr. Dieter Joenssen

+49 7361 576-2568

dieter.joenssen@hs-aalen.de

618

Office hours

Upon request