Jump to content

Talk:Restless Souls/Technology: Difference between revisions

m
no edit summary
mNo edit summary
 
Line 850: Line 850:
=====Verarbeitung=====
=====Verarbeitung=====
=====Kontext-Fenster=====
=====Kontext-Fenster=====
Wenn bei Menschen das Kurzzeitgedächtnis überläuft oder vorn herein beeinträchtigt ist, können sie sich "nicht mehr richtig konzentrieren". Bei LLMs ist ein sehr ähnliches Phänomen zu beobachten, bei einem zu kleinen Kontextfester fangen sie an Dinge zu vergessen und falsche Schlussfolgerungen zu ziehen. Dementsprechend haben die AI-Unternehmen daran gearbeitet das Kontextfenster zu erweitern. [https://medium.com/@aloy.banerjee30/infinite-context-length-in-llms-the-next-big-advantage-in-ai-2550e9e6ce9b Als großer Durchbruch wurde zum Beispiel das Erreichen der Millionenmarke vermarktet.] Wie so häufig waren die neuen LLMs eher öffentliche Betas. [https://www.golem.de/news/kuenstliche-intelligenz-claudes-kontextfenster-steigt-auf-eine-million-tokens-2603-206506.html Bei längeren Eingaben zeigten sich massive Leistungsverluste,] weshalb man Stand 2026 auf das [https://medium.com/@max.petrusenko/the-illusion-of-scale-why-your-llms-context-window-is-lying-to-you-454f08c31260 Maximum Effective Context Window (MECW)] achten sollte.
Wenn beim Menschen das Kurzzeitgedächtnis überlastet ist oder von vornherein eingeschränkt funktioniert, fällt es schwer, sich zu konzentrieren und Informationen korrekt zu verarbeiten. Ein ähnliches Phänomen lässt sich auch bei Large Language Models beobachten. Ist das Kontextfenster zu klein oder stark ausgelastet, beginnen Modelle früher gegebene Informationen zu "vergessen" oder ziehen falsche Schlussfolgerungen.
 
Aus diesem Grund haben Unternehmen wie OpenAI, Google und Anthropic intensiv daran gearbeitet, die Kontextfenster ihrer Modelle zu vergrößern. [https://medium.com/@aloy.banerjee30/infinite-context-length-in-llms-the-next-big-advantage-in-ai-2550e9e6ce9b Das Erreichen von Kontextlängen im Bereich von Hunderttausenden bis hin zu Millionen Tokens wurde als bedeutender Durchbruch vermarktet.]
 
In der Praxis zeigte sich jedoch, dass viele dieser Modelle eher als eine Art öffentliche Beta betrachtet werden konnten. Bei sehr langen Eingaben traten deutliche Leistungsverluste auf: Modelle verloren den Überblick über frühere Informationen, gewichten relevante Inhalte falsch oder reagieren inkonsistent. Daher sprach man zunehmend vom sogenannten Maximum Effective Context Window (MECW). Dieser Begriff beschreibt die Kontextlänge, innerhalb derer ein Modell tatsächlich zuverlässig arbeitet.
 
* Wichtig ist dabei, dass nicht nur der eigentliche Prompt zählt. Der gesamte Kontext umfasst sowohl die Eingabe als auch alle bisherigen Interaktionen sowie den erzeugten Output. Je mehr Tokens bereits im Kontext enthalten sind, desto weniger verbleiben für die Verarbeitung und die Generierung neuer Inhalte.
 
* Hinzu kommt, dass aktuelle Transformer-Architekturen strukturell Schwierigkeiten mit sehr großen Kontexten haben. Ihre Attention-Mechanismen verteilen die Aufmerksamkeit über eine große Anzahl von Tokens, wodurch relevante Informationen leichter "verdünnt" werden können. Ohne spezielle Optimierungen ist die Architektur daher nicht ideal für extrem lange Kontexte ausgelegt.


=====Statistik=====
=====Statistik=====
8,773

edits