KI für die automatisierte Imputation von fehlenden Daten
Schlagworte: Machine Learning, Datenqualität, Large Language Models
Die Qualität der Eingangsdaten bestimmt maßgeblich den Erfolg eines KI-Projektes. Allerdings ist die Analyse und Verbesserung der Datenqualität nicht nur zeitaufwändig, sondern erfordert auch viel Wissen und Erfahrung. In dem vom Wirtschaftsministerium Baden-Württemberg geförderten Projekt KI-Allianz Baden-Württemberg entwickeln wir KI-Methoden, die sowohl teilautomatisiert Probleme der Datenqualität erkennen, als diese auch beheben.
In dieser Bachelor-/Masterarbeit soll eine KI trainiert werden, die, basierend auf Meta-Informationen eines Datensatzes (Größe, Anzahl Merkmale, Art der Merkmale …), automatisiert die am besten geeignete Methode zur Imputation von fehlenden Daten bestimmt.
Large Language Models zur automatisierten Erkennung der korrekten Kodierung von Daten
Schlagworte: Machine Learning, Datenqualität, Large Language Models
Die Qualität der Eingangsdaten bestimmt maßgeblich den Erfolg eines KI-Projektes. Allerdings ist die Analyse und Verbesserung der Datenqualität nicht nur zeitaufwändig, sondern erfordert auch viel Wissen und Erfahrung. In dem vom Wirtschaftsministerium Baden-Württemberg geförderten Projekt KI-Allianz Baden-Württemberg entwickeln wir KI-Methoden, die sowohl teilautomatisiert Probleme der Datenqualität erkennen, als diese auch beheben.
In dieser Bachelor-/Masterarbeit sollen Methoden entwickelt werden, um mittels Large Language Models (z.B. ChatGPT) automatisiert die korrekte Kodierung von Merkmalen zu bestimmen (nominal, ordinal oder verhältnisskaliert).
Die entwickelten Methoden sollen zu einem Toolkit zusammengefasst werden, welches sich nahtlos in existierende, Python-basierte, Frameworks integriert.