Reinforcement-Learning Abschlussarbeit gewinnt 1. Platz beim Opitz-Förderpreis 2013

Die Preisträger und die Preisstifter: Dr. Bernhard Opitz, Firmeninhaber Opitz Consulting, die Informatik-Absolventen Dennis Buderus, Markus Thill und André Kasper sowie Dr. Jan Coupette, Senior Consultant bei Opitz (v.l.n.r.).

„Reinforcement Learning mit N-Tupel-Systemen für Vier Gewinnt“ – so lautet der Titel der Bachelorarbeit von Markus Thill, Absolvent der Technischen Informatik. Diese Arbeit entstand im Rahmen des Forschungsschwerpunktes CIplus in der Arbeitsgruppe von Professor Wolfgang Konen und sie gewann beim diesjährigen Opitz-Förderpreis den 1. Platz. Die Preisverleihung fand am 16. Januar 2013 in festlichem Rahmen auf dem Campus Gummersbach statt.

Die Arbeit beschäftigt sich damit, ob und wie ein Computer erlernen kann, ein sehr starker Vier-Gewinnt-Spieler zu werden, allein durch die Beobachtung von Spielverläufen, ohne dass ihm Spieltaktiken einprogrammiert werden. An dieser Fragestellung hatten sich schon mehrere Diplom- und Bachelorarbeiten in und außerhalb der FH Köln in den vergangenen Jahren versucht, allerdings ohne durchschlagenden Erfolg.

Herr Thill startete nun mit einem neuen Ansatz in die Bearbeitung dieses Problems: Er verwendete einerseits Reinforcement Learning, eine sehr leistungsfähige Methode aus dem Bereich des Maschinellen Lernens (dies hatten andere vor ihm auch schon getan) und andererseits die N-Tupel-basierte Merkmalserzeugung, die in dieser Form erstmalig für das Spiel Vier Gewinnt benutzt wurde. Diese Technik erzeugt über sogenannte N-Tupel, das sind kurze zusammenhängende „Ketten“ auf dem Spielfeld, eine große Anzahl von Merkmalen, aus denen der Computer im Laufe des Trainings lernt, die interessantesten Merkmale auszuwählen. Nur mit dieser Technik in Kopplung mit Reinforcement Learning war es möglich, einen sehr stark spielenden Vier-Gewinnt-Agenten zu erzeugen, der auf Augenhöhe mit den besten bekannten Vier-Gewinnt-Programmen (z. B. Mustrum) spielt. Im Gegensatz zu Mustrum braucht der neue Ansatz aber keine aufwändige spielbezogene Programmierung und keine umfangreiche Eröffnungsdatenbank, sondern er lernt vollständig autonom, allein durch Spiele gegen sich selbst!

Opitz2013-thill-konen-JanCoupette

Der Preisträger Markus Thill mit seinem Betreuer Prof. Dr. Wolfgang Konen und dem Laudator Dr. Jan Coupette.

„Der Erfolg der N-Tupel“,  so der Betreuer der Arbeit, Professor Wolfgang Konen,  „ ist eine schöne Bestätigung für die allgemeinere Hypothese, die wir in unserem Forschungsprojekt untersuchen: Nämlich, dass für maschineller Lernverfahren die bestmögliche Auswahl aus einer (eventuell sehr großen) Merkmalsmenge ganz wesentlich für die Leistungsfähigkeit ist, oftmals wichtiger als der eigentliche Lernalgorithmus selbst.“

Der Laudator Dr. Jan Coupette von Opitz-Consulting hob in seinem Vortrag die Bedeutung von Reinforcement-Learning (Bestärkendes Lernen) und anderer CI-Methoden für viele Anwendungen hervor. Es war erfreulich zu hören, dass moderne CI-Verfahren fast wie selbstverständlich zum Methodenspektrum eines Senior Consultant in einem Software-Unternehmen gehören, denn Jan Coupette hat über ACO-Systeme (Ant Colony Optimization) promoviert.