Allgemein

Reinforcement Learning from Human Feedback (RLHF)

Reinforcement Learning from Human Feedback (RLHF, auf Deutsch: Bestärkendes Lernen durch menschliches Feedback) ist genauso wie das Reinforcement Learning (RL, auf Deutsch: Bestärkendes Lernen) ein Teilbereich des maschinellen Lernens. Bei RL lernt ein Agent durch die Interaktion mit seiner Umgebung, welche Aktionen er ausführen soll, um bestmögliche Belohnungen zu erzielen. Dies geschieht, indem der Agent Feedback in Form von Belohnungen oder Strafen erhält, die auf der Gesamtheit seiner Handlungen basieren. Letzteres wird durch eine mathematische Belohnungsfunktion umgesetzt.

Auch beim RLHF interagiert ein Agent über eine Folge von Schritten mit einer Umgebung. Der Unterschied besteht darin, dass beim RLHF statt einer mathematischen Funktion ein menschlicher Aufseher vorkommt, der seine Vorlieben zwischen verschiedenen Folgen von Aktionen (Trajektorienabschnitten, die vom Agenten ausgeführt werden) ausdrücken kann. Die menschlichen Vorlieben werden dann in einer Datenbank erfasst. Der Agent versucht nun seine Aktionen (Trajektorien) immer besser an diese anzupassen, wobei so wenig Abfragen wie möglich an den Menschen gestellt werden. Immer wieder wird sich jedoch das Feedback des Menschen eingeholt, um es mit dem Verständnis des Agenten abzugleichen.

Quellen:

https://www.lernen-wie-maschinen.ai/ki-pedia/was-ist-reinforcement-learning-from-human-feedback-rlhf/#:~:text=Was