Jump to content

Talk:Restless Souls/Technology: Difference between revisions

m
no edit summary
mNo edit summary
mNo edit summary
Line 533: Line 533:


==Machine learning and artificial intelligence==
==Machine learning and artificial intelligence==
===Introduction===
Since the release of GPT-3 the public debate about AI heated up.
Since the release of GPT-3 the public debate about AI heated up.
:Is it intelligent?
:Is it intelligent?
:Is it creative?
:Is it creative?


Do you realise something?
Do you realize something?


The questions are too often binary - is it or is it not - and therefore we are tempted to give binary answers. To think that way was a mistake. We would have more accurate and fair discussions if we respect the nature of this subject.
The questions are too often binary - is it or is it not - and therefore we are tempted to give binary answers. To think that way was a mistake. We would have more accurate and fair discussions if we respect the nature of this subject.
Line 545: Line 546:
People that are active in the field know that of course.  
People that are active in the field know that of course.  


* ANI = Artificial Narrow Intelligence, also "weak AI" (basically machine learning: pattern recognition)
* '''ANI''' = Artificial Narrow Intelligence, '''specialized or "weak AI"''' (basically machine learning: pattern recognition)
* GPT = Generative pre-trained transformers (Large Language Model with the actual "learning" part de facto outsourced to humans: Reinforcement Learning from Human Feedback (RHLF)), in best case GPTs have a ''transplanted base intelligence'' but they lack the important feature to really learn for themselves
* GPT = Generative pre-trained transformers (Large Language Model with the actual "learning" part de facto outsourced to humans: Reinforcement Learning from Human Feedback (RHLF)), in best case GPTs have a ''transplanted base intelligence'' but they lack the important feature to really learn for themselves. Low quality "synthetic data" can even worsen the models.
* AGI = Artificial General Intelligence, also "strong AI" (on par with human thinking, ''a real AI'' capable to fully self-improve and drive its own development)
:: After the obvious slowdown in advancement through scaling, chain of thought (COT) was introduced. It is also known under the marketing term "reasoning [AI]". (See: Germani 2.0 Flash Thinking and ChatGPT o3)
* ASI = Artificial Super Intelligence (an AI that goes beyond the level of human intelligence)
:: This pushes ANI somewhat more into direction of AGI with the drawback slower response times and higher energy costs.
* '''AGI''' = Artificial General Intelligence, also "strong AI" ('''on par with human thinking''', ''a real AI'' capable to fully self-improve and drive its own development)
:: In discussions AGI is often equated with super intelligence. The argument is that as soon as AGI is achieved ASI is just around the corner.
:: This understates the '''wide scope of human intelligence''' and that AGI is achieved first by hyperscalers, making further improvement difficult through further scaling. At that point self-improvement is the true limiting factor and it will be constrained by society's wish to keep the AI "aligned". Without question, it seems very likely that ASI will inevitably be achieved via AGI. However, the speed seems to be overestimated.
* '''ASI''' = Artificial Super Intelligence (an AI that goes '''beyond the level of human intelligence''')  


===Why we thought it would hit the working class at first again===
===Why we thought it would hit the working class at first again===
Line 775: Line 780:


ChatGPT wurde des öfteren als ein wunderbarer '''Bullshit-Generator''' bezeichnet. GIGO: '''Garbage In, Garbage Out'''. Das verdeutlicht auch das Problem mit diesem AI-Ansatz. '''In den Trainingsdaten ist auch unglaublich viel Müll.''' Nicht zuletzt mussten auch Clickworker herhalten, um einige Schnitzer und ethisch hochproblematische Inhalte zu kennzeichnen. Die Macher der GPTs wären gut beraten, wenn ihnen andere Optimierungsmöglichkeiten ausgehen, die '''Trainingsdaten mithilfe von GPT zu säubern'''. Angefangen bei '''einfachsten Fehlern'''. Unsichere Ergebnis müssten menschlichen Teilnehmern wieder vorgelegt werden. Dabei würde ein bereits diskutierter Score zu Einsatz kommen, der klarstellt, dass eine Ausgabe nur zu einer gewissen Wahrscheinlichkeit richtig ist. Die Idee ist, dass das Modell sich möglichst '''eigenständig rekursive verbessert''', indem falsche Inhalte korrigiert oder gelöscht werden. — Die jetzigen Trainingsdaten sind wie eine Schule an einem sozialem Brennpunkt, wo das Modell Unterricht nimmt.
ChatGPT wurde des öfteren als ein wunderbarer '''Bullshit-Generator''' bezeichnet. GIGO: '''Garbage In, Garbage Out'''. Das verdeutlicht auch das Problem mit diesem AI-Ansatz. '''In den Trainingsdaten ist auch unglaublich viel Müll.''' Nicht zuletzt mussten auch Clickworker herhalten, um einige Schnitzer und ethisch hochproblematische Inhalte zu kennzeichnen. Die Macher der GPTs wären gut beraten, wenn ihnen andere Optimierungsmöglichkeiten ausgehen, die '''Trainingsdaten mithilfe von GPT zu säubern'''. Angefangen bei '''einfachsten Fehlern'''. Unsichere Ergebnis müssten menschlichen Teilnehmern wieder vorgelegt werden. Dabei würde ein bereits diskutierter Score zu Einsatz kommen, der klarstellt, dass eine Ausgabe nur zu einer gewissen Wahrscheinlichkeit richtig ist. Die Idee ist, dass das Modell sich möglichst '''eigenständig rekursive verbessert''', indem falsche Inhalte korrigiert oder gelöscht werden. — Die jetzigen Trainingsdaten sind wie eine Schule an einem sozialem Brennpunkt, wo das Modell Unterricht nimmt.
: Das Gegenteil wurde bereits ausprobiert: Es ist wie mit einer JPG-Datei, die immer wieder neu geöffnet und abgespeichert wird, es sammeln sich Defekte an, die neuen Daten sind minderwertiger Qualität. [https://www.heise.de/news/Kuenftige-KI-Modelle-potenziell-von-Demenz-bedroht-9209900.html AI-generierte Daten sind, wenn sie keiner Korrektur unterliegen, für neue Trainings wertlos, weil sie das LLM verschlechtern.] Mittlerweile haben minderwertige "synthetische Daten" gezeigt, wie wichtig memetsche Hygiene ist. Der massenhafte Einsatz generativer AIs verseucht den globalen Informationspool, sodass, wenn ein neues Modell aus diesem Pool lernt, quasi im Vergleich zu seinen Vorgängern unter (Neuro-)[https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html Degeneration] leidet. -- 2024: Die jüngsten Implementierungen von Chain of thought (COT) sind nur ein schwacher Trost. Es muss an allen Fronten weiter geforscht werden.
: Das Gegenteil wurde bereits ausprobiert: Es ist wie mit einer JPG-Datei, die immer wieder neu geöffnet und abgespeichert wird, es sammeln sich Defekte an, die neuen Daten sind minderwertiger Qualität. [https://www.heise.de/news/Kuenftige-KI-Modelle-potenziell-von-Demenz-bedroht-9209900.html AI-generierte Daten sind, wenn sie keiner Korrektur unterliegen, für neue Trainings wertlos, weil sie das LLM verschlechtern.] Mittlerweile haben minderwertige "synthetische Daten" gezeigt, wie wichtig memetsche Hygiene ist. Der massenhafte Einsatz generativer AIs verseucht den globalen Informationspool, sodass, wenn ein neues Modell aus diesem Pool lernt, quasi im Vergleich zu seinen Vorgängern unter (Neuro-)[https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html Degeneration] leidet. -- 2024: Die jüngsten Implementierungen von Chain of thought (COT) oder "reasoning" sind nur ein schwacher Trost. Es muss an allen Fronten weiter geforscht werden.


[...]
[...]
8,013

edits