Allgemein

Large Language Models (LLMs)

Unter einem Large Language Model wird im Bereich der Künstlichen Intelligenz (KI) ein generatives Sprachmodell verstanden, dass nach unterschiedlichen Strukturen aufgebaut werden kann. Die bekannteste ist die Transformer-Architektur. Durch die Verarbeitung großer Mengen an natürlicher Sprache (Natural Language Processing - NLP) kann es die Elemente der menschlichen Sprache verstehen, verarbeiten und dadurch generieren. Somit gelten Large Language Modelle als generative KI und sind für das Beantworten von Fragen, das Zusammenfassen von Texten und weitere textbezogene Aufgaben nützlich.

All dies funktioniert nur, wenn das LLM zuvor aufwendig trainiert wurde. Hierfür wird es mit großen Mengen an Text (beispielsweise öffentlich zugänglichen Texten wie Wissens-Datenbanken, Bücher, wissenschaftliche Artikel etc.) gefüttert. Hierbei werden Wörter, Wortbedeutungen, Wortbeziehungen und Wortabhängigkeiten und deren Wahrscheinlichkeiten ermittelt und in einem neuronalen Netz anhand von Milliarden von Parametern gespeichert. Nach dem Training kann auf diese Parameter Bezug genommen und Wort für Wort ein Output generiert werden, den der User als Antwort auf seine Anfrage bekommt.

Quellen:

https://de.wikipedia.org/wiki/Transformer_(Maschinelles_Lernen)

https://de.wikipedia.org/wiki/Neuronales_Netz

https://www.cloudcomputing-insider.de/was-ist-ein-large-language-model-llm-a-9b7bdd0c3766b5a9c0ee1e0c909790a3/