Die Temperatur, mitunter auch LLM-Temperatur genannt,[1] bezeichnet im Rahmen der Künstlichen Intelligenz einen Parameter, der die Zufälligkeit der Ergebnisausgabe steuert. Sie spielt vor allem eine Rolle in großen Sprachmodellen (LLMs). Niedrigere Temperaturen und damit eine geringere Zufälligkeit machen Ausgaben vorhersehbarer, höhere Temperaturen fördern dagegen kreativere und unerwartete Ausgaben.
Hintergrund
BearbeitenDas Konzept der „Temperatur“ ist metaphorisch aus der statistischen Mechanik entlehnt, wo die Temperatur die kinetische Energie von Teilchen misst und in der Künstliche Intelligenz die Zufälligkeit im Modellverhalten beeinflusst.[2] Entwickler können durch die Anpassung der Temperatureinstellung das KI-Verhalten entsprechend auf verschiedene Anwendungsanforderungen abstimmen.[3]
Eine niedrige Temperatur, etwa 0,1 bis 0,3, ist dabei für Aufgaben vorzuziehen, bei der die KI das Modell das wahrscheinlichste Wort auswählen und damit eine maximale Präzision und sachliche Genauigkeit erreichen soll. Dies ist vor allem wichtig für technische Beschreibungen, Programmierung und ähnliche Anwendungen und die Antwort ist meist klar, berechenbar und nüchtern. Eine etwas höhere Temperatur, etwa 0,4 bis 0,7, führt zu einem Gleichgewicht zwischen strukturierter Logik und Kreativität, um kohärente und dennoch ansprechende Antworten zu erhalten. Dies kann etwa beim Brainstorming über verschiedene Themen oder bei Ideenentwicklung sinnvoll sein. Eine hohe Temperatureinstellung bis >1 produziert weniger vorhersehbare, vielfältigere und kreativere Antworten, ist aber auch anfälliger für Halluzinationen,[3][1] und kann zu unangemessenen oder sogar beleidigenden Ergebnissen führen, was ethische Bedenken hinsichtlich der verantwortungsvollen Nutzung der Temperatureinstellungen aufwirft.[2]
Mathematische Formulierung
BearbeitenIn Sprachmodellen werden für jedes mögliche nächste Token, also die bei der Tokenisierung erzeugte Texteinheiten, zunächst unnormierte Bewertungswerte berechnet, die in der Literatur meist als Logits bezeichnet werden.[4] Aus diesen wird durch Anwendung der Softmax-Funktion eine Wahrscheinlichkeitsverteilung erzeugt. Für einen Logit-Vektor lautet die entsprechende Softmax-Funktion
Die resultierenden Werte liegen zwischen 0 und 1 und summieren sich zu 1; die Funktion bildet also auf eine Wahrscheinlichkeitsverteilung über mögliche Ausgaben ab.[4][5]
Die Temperatur wirkt in dieser Funktion als Skalierungsparameter auf die Logits vor der Normalisierung durch die Softmax-Funktion. Die temperaturskalierte Form ist gegeben durch
Für ergibt sich die gewöhnliche Softmax-Funktion. Bei kleineren Temperaturwerten wird die Wahrscheinlichkeitsverteilung stärker auf die größten Logits konzentriert; bei höheren Werten wird sie flacher, so dass auch weniger wahrscheinliche Token eine größere Auswahlchance erhalten.[4]
Belege
Bearbeiten- ↑ a b Joshua Noble: What is LLM temperature? auf: ibm.com, abgerufen am 7. März 2026.
- ↑ a b Temperature auf: AI Ethics Lab der Rutgers University, New Jersey, abgerufen am 7. März 2026.
- ↑ a b V. Sooraj: Understanding Temperature in AI: Controlling Creativity and Predictability In: medium.com, 24. Juni 2025; abgerufen am 7. März 2026.
- ↑ a b c Geoffrey Hinton, Oriol Vinyals, Jeff Dean: Distilling the Knowledge in a Neural Network. arXiv:1503.02531, 2015, S. 2. (pdf).
- ↑ Michael Franke, Judith Degen: The softmax function: Properties, motivation, and interpretation. Manuskript, Stanford University, S. 1–3. (pdf)