8,773
edits
Paradox-01 (talk | contribs) |
Paradox-01 (talk | contribs) mNo edit summary |
||
| Line 850: | Line 850: | ||
=====Verarbeitung===== | =====Verarbeitung===== | ||
=====Kontext-Fenster===== | =====Kontext-Fenster===== | ||
Wenn | Wenn beim Menschen das Kurzzeitgedächtnis überlastet ist oder von vornherein eingeschränkt funktioniert, fällt es schwer, sich zu konzentrieren und Informationen korrekt zu verarbeiten. Ein ähnliches Phänomen lässt sich auch bei Large Language Models beobachten. Ist das Kontextfenster zu klein oder stark ausgelastet, beginnen Modelle früher gegebene Informationen zu "vergessen" oder ziehen falsche Schlussfolgerungen. | ||
Aus diesem Grund haben Unternehmen wie OpenAI, Google und Anthropic intensiv daran gearbeitet, die Kontextfenster ihrer Modelle zu vergrößern. [https://medium.com/@aloy.banerjee30/infinite-context-length-in-llms-the-next-big-advantage-in-ai-2550e9e6ce9b Das Erreichen von Kontextlängen im Bereich von Hunderttausenden bis hin zu Millionen Tokens wurde als bedeutender Durchbruch vermarktet.] | |||
In der Praxis zeigte sich jedoch, dass viele dieser Modelle eher als eine Art öffentliche Beta betrachtet werden konnten. Bei sehr langen Eingaben traten deutliche Leistungsverluste auf: Modelle verloren den Überblick über frühere Informationen, gewichten relevante Inhalte falsch oder reagieren inkonsistent. Daher sprach man zunehmend vom sogenannten Maximum Effective Context Window (MECW). Dieser Begriff beschreibt die Kontextlänge, innerhalb derer ein Modell tatsächlich zuverlässig arbeitet. | |||
* Wichtig ist dabei, dass nicht nur der eigentliche Prompt zählt. Der gesamte Kontext umfasst sowohl die Eingabe als auch alle bisherigen Interaktionen sowie den erzeugten Output. Je mehr Tokens bereits im Kontext enthalten sind, desto weniger verbleiben für die Verarbeitung und die Generierung neuer Inhalte. | |||
* Hinzu kommt, dass aktuelle Transformer-Architekturen strukturell Schwierigkeiten mit sehr großen Kontexten haben. Ihre Attention-Mechanismen verteilen die Aufmerksamkeit über eine große Anzahl von Tokens, wodurch relevante Informationen leichter "verdünnt" werden können. Ohne spezielle Optimierungen ist die Architektur daher nicht ideal für extrem lange Kontexte ausgelegt. | |||
=====Statistik===== | =====Statistik===== | ||
edits