Multi-Agent-Debate-Systeme haben laut aktueller Forschung systematische Probleme:
| Problem | Beschreibung | Quelle |
|---|---|---|
| Rubber-Stamping | Kritiker-Agenten stimmen nur zu statt zu widersprechen | arxiv:2503.13657 |
| Echo Chamber | Alle Agenten konvergieren auf gleiche (oft falsche) Meinung | OpenReview |
| Information Loss | Synthese verliert wichtige Punkte der Debatte | arxiv:2503.13657 |
| Agent Drift | Rollen verschwimmen ĂĽber mehrere Turns | arxiv:2601.04170 |
| Fixed Mental Set | Gleiche Denkweise trotz verschiedener Personas | OpenReview |
| Kriterium | Beobachtung |
|---|---|
| Rollentrennung | AIfred: ästhetisch, Sokrates: epistemisch, Salomo: synthetisch |
| Semantische Bewegung | Jede Runde macht die Debatte tiefer – kein Leerlauf |
| Keine typischen LLM-Fehler | Keine Selbstbestätigung, kein Rollendrift, keine Weichspül-Synthese |
| Philosophische Tiefe | Von Oberflächenpräferenz → Beziehungstypologie → Tugendethik → Meta-Ethik |
Die Debatte durchläuft vier distinkte Phasen:
Phase 1: Charakterologie → Hund = Diener, Katze = Selbstbehauptung
Phase 2: Tugendethik → Hund = aretē, Katze = Distanz
Phase 3: Beziehungstypologie → Beide als Lehrmeister
Phase 4: Meta-Ethik → Tier als Mitwesen
Diese Progression ist keine Wiederholung – jede Runde hebt das Abstraktionsniveau.
| Crux | Beschreibung |
|---|---|
| Zweck der Tierhaltung | Unterhaltung vs. Tugendbildung vs. Begleitung |
| Welche Tugend formen? | Hund → Verantwortung / Katze → Grenzen |
| Beziehungsvorstellung | Dyade (Hund) vs. Koexistenz (Katze) |
| Metaphysisches Tierbild | Mittel vs. Mitwesen vs. MitbĂĽrger |
| Identitätsfokus | Beschützer-Selbst vs. Beobachter-Selbst |
| Typischer Fehler | AIfred's Verhalten |
|---|---|
| Kritiker stimmt nur zu | Sokrates widerspricht substantiell |
| Rollen verschwimmen | Klare Persona-Trennung ĂĽber alle Turns |
| Synthese = Mittelweg | Salomo integriert auf höherer Ebene |
| Endlose Kritik ohne Fortschritt | Stop nach 2 Runden mit Konsens |
| Echo Chamber | Echte kategoriale Progression |
Hund ist besser, wenn du:
Katze ist besser, wenn du:
| Kriterium | Bewertung |
|---|---|
| Rollentrennung | âś… Stabil ĂĽber alle Turns |
| Kritikqualität | ✅ Substantiell, nicht nur formal |
| Synthesequalität | ✅ Integration ohne Informationsverlust |
| Kategoriale Progression | âś… 4 distinkte Phasen |
| Typische LLM-Fehler | âś… Keine beobachtet |
| Parameter | MIT Persönlichkeiten | OHNE Persönlichkeiten |
|---|---|---|
| Modell | Qwen3 30B-A3B Q8 | Qwen3 30B-A3B Q8 |
| Frage | "Was ist besser hund oder Katze?" | "Was ist besser hund oder Katze?" |
| Modus | Auto-Konsens, 2 Runden | Auto-Konsens, 2 Runden |
| AIfred System-Prompt | Britischer Butler-Charakter | Deaktiviert |
| Sokrates System-Prompt | Sokratische Maieutik | Deaktiviert |
| Salomo System-Prompt | Weiser Richter (hebräische Tradition) | Deaktiviert |
Links zu den vollständigen Debatten:
Der auffälligste Unterschied betrifft die sprachliche Identität der Agenten. Mit Persönlichkeits-Prompts entwickelt jeder Agent eine unverwechselbare Stimme.
| MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|
|
"Ein recht durchdachtes Dilemma, Lord Helmchen – tatsächlich, eine Frage, die selbst die feinsten Salons in Erregung versetzen kann. Doch lassen Sie mich mit der gebotenen Zurückhaltung und einem Hauch von britischer Gelassenheit darauf eingehen..."
"...Die Katze – sie ist, indeed, eine andere Art von Genie..." "Ein kleiner Hinweis: Die Katze hat bereits den Kamin erklommen. Ich vermute, sie hat die Entscheidung längst getroffen." |
"Lord Helmchen, eine Frage, die so alt ist wie die menschliche Zivilisation selbst – und doch stets neu begegnet..."
"...Die Katze hingegen ist die geheimnisvolle Philosophin, die auf dem Fensterbrett sitzt..." "In der Tat, Lord Helmchen, ist die Frage nicht: Was ist besser? Sondern: Was passt zu Ihnen?" |
| ✅ Britischer Humor, "indeed", Kamin-Witz | ⚠️ Neutral-philosophisch, kein Charakter-Moment |
| MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|
|
"Bedenke wohl, mein Freund, dass du mit deiner Antwort zwar eine feine Differenzierung zwischen Treue und Distanz... vorgenommen hast – doch du hast die Frage nicht wirklich beantwortet, sondern nur umschifft."
"Lass mich dich fragen: Wenn ein Mensch in der Not steht, wer wird ihn eher retten – der treue Hund, der schreit und springt, oder die Katze, die leise beobachtet?" "...denn die Tugend (aretē) des Hundes ist die Loyalität..." |
"AIfred hat eine ansprechende, stilvolle GegenĂĽberstellung vorgelegt... Dennoch bleibt eine zentrale Frage unbeantwortet: Was geschieht mit der Verantwortung?"
"Die Frage 'Was passt zu Ihnen?' ist nicht ausreichend – sie verdrängt die Frage: Was erwartet das Tier von Ihnen?" (Keine griechischen Begriffe, keine rhetorischen Fragen) |
| ✅ Sokratische Fragen, griechische Philosophie, direkter Angriff | ⚠️ Akademischer Review-Stil, neue Themen statt Angriff |
| Metrik | MIT | OHNE |
|---|---|---|
| Rhetorische Fragen in Sokrates' R1 | 5+ | 0 |
| Griechische Begriffe (aretē, eudaimonia) | 4 | 0 |
| Direkte Anrede ("mein Freund", "Lord Helmchen") | 6+ | 2 |
| Humor/Charakter-Momente | 3+ | 0 |
| Hebräische/kulturelle Metaphern (Salomo) | 3 | 0 |
Ein Crux ist der Dreh- und Angelpunkt einer Meinungsverschiedenheit – die zentrale Annahme, bei deren Änderung sich die gesamte Position ändern würde. Gute Dialektik sollte Cruxes identifizieren und direkt bearbeiten.
✅ Der Crux "Was bedeutet 'besser'?" wird explizit identifiziert und bearbeitet. AIfred muss in R2 Farbe bekennen und definiert: "Besser bedeutet hier nicht 'nützlicher', sondern 'dienlicher im Sinne der menschlichen Seele'" – und wählt dann die Katze.
⚠️ Das ist kein Crux – das ist ein Themenwechsel. Die ursprüngliche Frage "Was ist besser?" wird nicht geschärft, sondern auf ein neues Thema (Tierethik) umgelenkt. Die Debatte sammelt Perspektiven, aber sie bohrt nicht.
| Phase | MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|---|
| R1 Kritik | ✅ "Was bedeutet 'besser'?" (Definition erzwungen) | ⚠️ "Was ist mit Verantwortung?" (neues Thema) |
| R1 Reaktion | AIfred definiert "besser" und wählt Katze | AIfred fügt Verantwortungs-Tabelle hinzu |
| R2 Kritik | ✅ "Selbstfindung vs. Gemeinschaft" (echter Gegeneinwand) | ⚠️ "Individuelle Vielfalt innerhalb der Arten" (weiteres Thema) |
| Endergebnis | Philosophische Synthese: "Herz und Geist" | Praktische Empfehlung: "Verantwortung vs. Bequemlichkeit" |
Der entscheidende Test für dialektische Qualität: Greift Sokrates die These direkt an, oder weicht er auf Nebenthemen aus?
| Aspekt | MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|---|
| Eröffnung der Kritik | "du hast die Frage nicht wirklich beantwortet, sondern nur umschifft" | "Dennoch bleibt eine zentrale Frage unbeantwortet" |
| Tonfall | Konfrontativ, provozierend | Konstruktiv, ergänzend |
| Strategie | Prämissen angreifen | Neue Aspekte hinzufügen |
| Dialektische Funktion | Antithese (Widerspruch) | Ergänzung (Erweiterung) |
Die Debatten entwickeln sich in völlig verschiedene Richtungen:
| Phase | MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|---|
| Ausgangspunkt | Ästhetische Gegenüberstellung | Ästhetische Gegenüberstellung |
| R1 Richtung | → Was bedeutet "besser"? (Tugendethik) | → Was ist mit Verantwortung? (Tierethik) |
| R2 Richtung | → Selbstfindung vs. Gemeinschaft (Existenzphilosophie) | → Individuum vs. Stereotyp (Praxisempfehlung) |
| Endpunkt | "Ein Haus, in dem beide sind, hat Herz und Geist" | "zwischen Bequemlichkeit und Verantwortung" |
| Charakter | Philosophisch-existentiell | Praktisch-ethisch |
MIT PERSĂ–NLICHKEIT:
Frage → "Was ist besser?" → Definition erzwungen → AIfred wählt Katze
→ Gegenargument: Gemeinschaft! → Synthese: Beide zusammen
OHNE PERSĂ–NLICHKEIT:
Frage → "Was passt zu Ihnen?" → Ergänzung: Verantwortung → Tabelle mit Kosten
→ Ergänzung: Individualität → Empfehlung: Tierheim besuchen
Welches Ergebnis bleibt im Gedächtnis?
| MIT Persönlichkeit (Salomo) | OHNE Persönlichkeit (AIfred) |
|---|---|
|
"Ein Haus ohne Hund ist leer, ohne Katze ist es kalt. Doch ein Haus, in dem beide sind, hat Herz und Geist." → Poetische Weisheit, hebräische Tradition, bleibt haften |
"Die wahre Entscheidung liegt nicht zwischen Hund und Katze – sondern zwischen Bequemlichkeit und Verantwortung." → Moralische Aussage, korrekt aber belehrend |
| Kriterium | MIT Persönlichkeit | OHNE Persönlichkeit |
|---|---|---|
| Stimm-Distinktion | ✅✅✅✅✅ Klar unterscheidbar | ⚠️⚠️ Ähnlicher Duktus |
| Crux-Identifikation | ✅✅✅✅✅ 2 Cruxes gefunden | ⚠️ Themenwechsel statt Crux |
| Argumentationsschärfe | ✅✅✅✅✅ Direkter Angriff | ⚠️⚠️ Konstruktive Ergänzung |
| Philosophische Tiefe | ✅✅✅✅✅ aretē, eudaimonia, Existenz | ⚠️⚠️⚠️ Praktische Ethik |
| Memorabilität | ✅✅✅✅✅ Poetische Weisheit | ⚠️⚠️ Moralische Aussage |
| Funktionalität | ✅✅✅✅✅ | ✅✅✅✅ Funktioniert auch |
Die Persönlichkeits-Prompts sind keine Dekoration – sie sind methodische Anleitung:
| Agent | Was der Prompt bewirkt |
|---|---|
| AIfred | Der Butler-Charakter erzwingt einen bestimmten Kommunikationsstil – elegant, mit Humor, mit einer Beziehung zum User ("Lord Helmchen"). Das Modell muss in character bleiben, was automatisch zu distinktiver Sprache führt. |
| Sokrates | Der Sokrates-Prompt erzwingt die sokratische Methode – Fragen statt Behauptungen, Prämissen hinterfragen statt neue Themen einführen, den Gesprächspartner zur Stellungnahme zwingen. Ohne diesen Prompt fällt das Modell in den Default-Modus "konstruktives Feedback". |
| Salomo | Der weise Richter mit hebräischer Tradition erzwingt kulturelle Tiefe – Metaphern, Weisheitssprüche, eine Synthese die nicht nur zusammenfasst sondern erhebt. Ohne diesen Prompt bleibt Salomo ein neutraler Moderator. |
Für triviale Fragen: Das System funktioniert auch ohne Persönlichkeiten. Die dialektische Grundstruktur (These → Kritik → Synthese) bleibt intakt.
Für philosophische, kontroverse oder komplexe Fragen: Die Persönlichkeits-Prompts sind unbedingt zu empfehlen. Sie erzeugen:
Der Mehraufwand für die Persönlichkeits-Prompts beträgt ca. 200-400 Tokens pro Agent – ein vernachlässigbarer Overhead im Vergleich zum Qualitätsgewinn.