Hier ist die Szene, und Sie kennen sie bereits.
Sie arbeiten seit Monaten an Ihrem Roman. Sie stoßen an eine Wand – ein Kapitel, das sich nicht knacken lässt, ein Nebenstrang, der sich nicht auflöst, eine Figur, deren Stimme zu driften begonnen hat. Und dann hören Sie, was gerade alle hören: Der neue Claude hält eine Million Tokens an Kontext. Gemini 2.5 Pro hält dasselbe. Sogar ChatGPT verarbeitet inzwischen 272.000 Tokens. Sie können Ihr gesamtes Manuskript in einen einzigen Prompt packen. Also fügen Sie das Buch ein. Sie bitten um Hilfe.
Was Sie zurückbekommen, ist flüssig, selbstbewusst – und falsch. Ein bestimmtes Detail aus Kapitel drei wird still und leise übergangen. Eine Regel, für deren Etablierung Sie einen ganzen Nebenstrang verwendet haben, wird gebeugt, weil die Szene „Spannung braucht". Eine Figur, die in Kapitel acht ihre linke Hand verloren hat, gestikuliert in Kapitel neunzehn wieder mit beiden.
Sie geben der KI die Schuld. Das sollten Sie nicht. Sie haben das falsche Anliegen an das richtige Werkzeug gerichtet – und der Grund dafür ist nicht der, den Ihnen jeder KI-Blog genannt hat.
Meine Frau Marion hat es am Dienstag aus der Perspektive der Autorin erzählt. Das hier ist dasselbe Problem aus der Perspektive des Erbauers.
Warum die Million-Tokens-Ära das lange Schreiben nicht gerettet hat
2023, als die ersten KI kann keinen Roman schreiben-Essays erschienen, hatten die meisten in einem Punkt Recht: ChatGPT hatte ein winziges Gedächtnis. Das Kontextfenster lag bei vielleicht achttausend Tokens. Bei einem Manuskript von neunzigtausend Wörtern konnte das Modell also etwa ein Zehntel Ihres Buches auf einmal sehen. Natürlich vergaß es Ihre Hauptfigur.
Im April 2026 ist diese Ausrede tot. Claude Opus 4.6 und Sonnet 4.6 halten beide eine Million Tokens an Kontext, laut der Modelldokumentation von Anthropic. Gemini 2.5 Pro hält dasselbe. Google hat 2024 und 2025 damit verbracht zu versprechen, eine Version mit zwei Millionen Tokens komme bald – und still und leise ist sie nie erschienen. Das Standardfenster von OpenAIs GPT-5.4 endet bei 272.000 Tokens, größere Fenster sind hinter einer Premium-Stufe verschlossen.
Vor zwei Jahren raste die Branche noch auf längeren Kontext zu. Heute nicht mehr. Die Front hat das Rennen um Kontextlänge in aller Stille eingestellt. Was sie gestoppt hat, war keine Marketingentscheidung. Es war das, was sie am Limit vorgefunden haben.
Den Autorinnen und Autoren erzählt man derweil zwei Geschichten darüber, was sie mit alldem anfangen sollen. Benutzen Sie einfach ChatGPT selbst, es ist kostenlos – und kostenlos ist auch der Schund, der dabei herauskommt. Genau deshalb bauen Self-Publishing-Plattformen wie Kobo inzwischen aktiv Machine-Learning-Werkzeuge, um KI-generierte Einreichungen aus ihren Pipelines herauszufiltern. Oder engagieren Sie einfach einen Ghostwriter – die Preise im Mittelfeld liegen laut den Reedsy-Benchmarks von 2025 zwischen 15.000 und 20.000 Euro, was sich die meisten Autorinnen und Autoren schlicht nicht leisten können.
Beide Geschichten ziehen dieselbe Lehre aus denselben Belegen. Beide liegen falsch.
Was ein Buch tatsächlich ist
Ein Buch ist kein langes Dokument. Es sieht wie eines aus – Wörter in einer Reihe, Kapitel in einer Abfolge, Anfang und Ende. Aber ein Buch ist kein Dokument. Es ist eine Simulation.
Jeder Satz, den Sie schreiben, tut zwei Dinge auf einmal. Er ist das Ergebnis dessen, was vorher kam – was die Figur weiß, was die Welt enthält, was die Leserin bis hierher gelernt hat. Und er ist zugleich eine Einschränkung für alles, was danach kommt. Wenn eine Figur aus Kapitel drei mit einer Narbe auf der Wange herausgeht, prüft jede spätere Szene, in der jemand ihr Gesicht ansieht, implizit diese Narbe. Wenn Ihr Magiesystem festlegt, dass eine bestimmte Blutlinie ein Katalysatorobjekt braucht, um ihre Kraft zu kanalisieren, ist jede Szene, in der jemand diese Kraft ohne Katalysator einsetzt, ein Regelbruch.
Das ist, was ein Roman ist: eine Zustandsmaschine, deren Zustand die angesammelte Bedeutung jedes bereits geschriebenen Satzes ist und deren jeder zukünftige Satz an diesen Zustand gebunden ist. Das Schreiben ist nicht der schwere Teil. Das Halten ist der schwere Teil.
Und das Halten ist genau das eine, was ein LLM – ein großes Sprachmodell wie ChatGPT, Claude oder Gemini – nicht kann. Nicht einmal mit einer Million Tokens an Kontext.
Drei Fehlerarten, die ein größeres Kontextfenster nicht beheben kann
Die Figur ist kein Klumpen. Sie ist eine Zeitlinie.
Ein LLM, das Ihr Manuskript liest, integriert jede Erwähnung einer Figur in einen statistischen Durchschnitt: das ist, wer sie ist. In einer Kurzgeschichte funktioniert das tadellos. In einer Trilogie bricht es auseinander.
In den Velirion-Chroniken – der Fantasy-Reihe, die meine Frau Marion schreibt – durchläuft eine der zentralen Figuren eine Prüfung, die eine weiße Strähne in ihrem Haar zurücklässt. Ein körperliches Zeichen des Preises, ein Detail, das sie nach dieser Szene für immer verändert. In Kapitel achtzehn, als eine andere Figur sie über ein Feuer hinweg ansieht, ist die Strähne da. In Kapitel zwei, als wir ihr zum ersten Mal begegnen, ist sie es nicht.
Ein LLM kann, auch wenn es das vollständige Manuskript bekommt, den Unterschied nicht zuverlässig erkennen. Es weiß, dass die Strähne im Text ist. Es weiß nicht, dass die Strähne danach kommt. Bitten Sie es, eine Szene in Kapitel zwei zu schreiben, und es wird die Strähne einfügen – denn für das Modell ist die Strähne Teil dessen, wer sie ist. Es gibt kein „Vorher" und „Nachher" in seiner Repräsentation. Es gibt nur sie, verschmolzen.
Das ist kein Bug, den man mit mehr Kontext beheben kann. Es ist ein Versagen der Repräsentation selbst. LLMs kollabieren die Zeit.
Die Regel ist keine Tendenz. Sie ist eine Wand.
Ein gut gebautes Magiesystem ist keine Liste von Kräften. Es ist ein Abhängigkeitsgraph. Eine Figur mit einer bestimmten Blutlinie braucht ein Katalysatorobjekt, um sie zu kanalisieren. Der Katalysator muss an einem bestimmten Ort sein. Der Ort ist nur mit einer Begleiterin erreichbar, deren Kraft die eigene ergänzt. Verletzen Sie eine dieser Bedingungen, und die Kraft sollte versagen.
Für eine menschliche Leserin ist genau das der Grund, warum die Magie sich real anfühlt: Sie ist gesetzmäßig, also kann sie verloren gehen. Für ein KI-Modell sind diese Regeln statistische Tendenzen. Wenn eine Szene „Spannung braucht", wird das Modell die Figur die Sache trotzdem tun lassen, ohne den Katalysator – weil die Szene es so wollte. Es optimiert lokale Flüssigkeit, nicht globale Einhaltung von Bedingungen.
Die Regel war für das Modell nie eine Regel. Sie war ein Muster. Und dasselbe passiert jeder tragenden Regel in Ihrem Buch – der erklärten Einschränkung einer Figur, einem physikalischen Gesetz der Welt, einer Zeitlinie von Ereignissen. Es gibt in einem LLM keinen Mechanismus, der sagt: Das hier ist eine harte Bedingung.
Der Bruch ist kein Handlungspunkt. Er ist ein Gesetz.
Velirions Kosmologie kennt drei Reiche: Realitas, das physische Zentrum, die Welt, in der wir uns bewegen; Echoae, das Reich der Möglichkeiten; und Umbros, das Reich der Enden, dorthin, wo die Toten gehen. Sie werden durch ein altes Barrieresystem getrennt, das die Lebenden seit Jahrhunderten respektieren. In dieser Welt sind die Lebenden und die Toten nicht wirklich voneinander getrennt – sie erreichen einander durch Träume und durch Meditation. Es ist ein Trost, kein Tabu.
Ohne die Handlung zu verraten: Im ersten Band versucht ein mächtiger Magier, seine Frau und seine Tochter aus Umbros zurückzuholen. Damit bricht er diese Ordnung. Und als er es tut, beginnt das Gewebe, das Realitas von den anderen Reichen trennt, langsam und auf ganz bestimmte Weise zu reißen.
Dieser Riss ist eine kausale Einschränkung für jede folgende Szene. Jeder spätere Moment in Realitas muss sich so lesen, als würde das Gewebe schwächer werden. Die gesamte Textur der Welt ist ein kleines Stück verkehrt, und die Leserin sollte es spüren, selbst wenn die Szene das Verkehrte nicht beim Namen nennt.
Ein LLM weiß, wenn es das vollständige Manuskript bekommt, dass der Magier die Sache getan hat. Was es nicht kann: die Folge fortpflanzen. Es wird auf Seite 240 eine ruhige Realitas-Szene schreiben, als gäbe es den Riss nicht, weil die Szene auf Seite 240 lokal nicht verlangt, dass der Riss existiert. Die Tat des Magiers war in der Repräsentation des Modells ein Handlungspunkt. Sie war nie ein Gesetz, um das sich das spätere Schreiben zu krümmen hatte.
Alles, was bereits geschehen ist, sollte alles einschränken, was noch nicht geschehen ist. LLMs funktionieren so nicht. Sie können es nicht.
Warum ChatGPT Ihren Roman nicht schreiben kann: Es ist Architektur, nicht Intelligenz
Alles, was ich gerade beschrieben habe, ist architektonisch, nicht intellektuell. LLMs sind außergewöhnlich fähig in dem, was sie tun. Sie tun aber nicht das, was ein Roman verlangt.
Was sie tun, ist Vorhersage des nächsten Tokens. Sie haben in außergewöhnlichem Detail gelernt, welches Wort wahrscheinlich als nächstes kommt, gegeben alles, was vorher kam. Für einen Absatz, einen Essay oder eine E-Mail funktioniert das verblüffend gut. Im Romanmaßstab bricht es zusammen, und dieser Zusammenbruch ist gemessen.
NovelQA – ein Benchmark von 2024, angenommen auf der ICLR-2025 und aus englischsprachigen Romanen gebaut – testet das Verständnis von LLMs an Dokumenten, die länger als 200.000 Tokens sind. Die Autoren stellen fest, dass aktuelle Modelle „bei Multi-Hop-Reasoning, detailorientierten Fragen und extrem langen Eingaben zu kämpfen haben". Das sind keine Bugs. Das sind genau die Operationen, die ein Roman von seiner Leserin verlangt: mehrere Stränge gleichzeitig halten, bestimmte Details erinnern, sie über Distanz hinweg verbinden. Der Benchmark listet nicht die Schwächen von LLMs auf. Er beschreibt, was das Lesen eines Romans ist, und stellt fest, dass LLMs es nicht können.
Eine separate Studie der Chroma Research aus dem Jahr 2025 hat achtzehn Frontier-Modelle getestet – darunter Claude Opus 4, Gemini 2.5 Pro und GPT-4.1 – und fand heraus, dass die Leistung mit wachsender Eingabelänge zunehmend unzuverlässig wird. Die Million-Tokens-Zahl auf der Marketingseite ist nicht die Zahl, die Sie tatsächlich bekommen.
Und dann ist da noch die Stimme. Eine Studie der Cornell University aus 2025 hat KI-Schreibassistenten mit amerikanischen und indischen Probandinnen und Probanden getestet und festgestellt, dass die Vorschläge der KI das Schreiben in Richtung generischer westlicher Stile homogenisierten – eine charakteristische Prosa wurde zu einem statistischen Mittel hin abgeflacht. Wenn ein LLM unsicher ist, regrediert es.
Was wirklich funktioniert: Zustandsverwaltung außerhalb des Modells
Die Forschungsgemeinschaft hat eine Antwort, und es ist dieselbe Antwort, die Ihnen eine menschliche Lektorin geben würde. Ein Paper namens SCORE, im März 2025 veröffentlicht, schlägt ein System vor, das „Schlüssel-Status von Objekten" über eine Geschichte hinweg verfolgt und Retrieval einsetzt, um beim Generieren der nächsten Szene die relevanten vorherigen Episoden heranzuziehen. Das LLM übernimmt die Generierung. Ein umgebendes System übernimmt Gedächtnis, Konsistenz und Retrieval. Der Zustand lebt außerhalb des Modells.
Das ist auch, was eine Lektorin tut. Eine Lektorin hält nicht Ihr ganzes Buch im Kopf. Sie führt Figurenblätter. Eine Zeitlinie. Eine Liste der Regeln, an die sich die Welt halten muss. Sie extrahiert den Zustand Ihres Romans in strukturierte Daten, mit denen ein menschlicher Geist tatsächlich arbeiten kann, und prüft jede neue Szene gegen diesen Zustand. Das ist kein Notbehelf für die Grenzen des Gedächtnisses. Das ist, was Lektorieren ist.
Was wir bei my-book.ai gebaut haben, ist dieselbe Architektur, um das LLM herum, unter einer menschlichen Lektorin. Figuren als lebendige Daten mit Zeitlinien. Weltregeln als prüfbare Gesetze, die das System durchsetzt. Kausale Ketten, die nach vorn wirken – damit jede spätere Szene gegen das geprüft wird, was bereits geschehen ist. Eine redaktionelle Rückkopplungsschleife, in der die KI nicht Szenen schreibt – sondern bemerkt, wenn eine Szene eine Einschränkung verletzt, die die Lektorin bereits gesetzt hat.
Ich habe das nicht gebaut, weil ich gegen KI wäre. Ich benutze KI jeden Tag, und ich weiß genau, was sie allein nicht kann – und was eine gute Lektorin mit ihr kann.
Der Moment, den jede Autorin kennt
Sie sind drei Viertel durch Ihr Manuskript. Sie schreiben seit Monaten. Und dann verschiebt sich etwas. Vielleicht stellt sich eine Figur, die Sie für eine Nebenfigur gehalten haben, als zentral heraus. Vielleicht muss das Motiv der Antagonistin sich ändern – nicht weil die Geschichte scheitert, sondern weil die Geschichte ehrlicher wird und die Version, mit der Sie begonnen haben, nicht mehr die Version ist, die das Buch sein will.
Im rein menschlichen Ablauf ist dieser Richtungswechsel ein Wochenende. Vielleicht zwei. Sie setzen sich mit Ihrem eigenen Manuskript hin und beginnen, Ihr eigenes Buch zu lesen, auf der Suche nach jeder Szene, in der das alte Motiv auftaucht, jedem vorbereitenden Moment, jeder Reaktion einer Figur, die auf die Version kalibriert ist, die Sie gerade aufgeben wollen. Sie finden die meisten. Einige übersehen Sie. Die übersehenen werden zu Kontinuitätsfehlern – aufgefangen von Ihrer Lektorin, wenn Sie Glück haben, von Ihren Leserinnen, wenn nicht.
In einer Pipeline mit einer echten Zustandsschicht ist dieser Richtungswechsel eine Abfrage. Zeige mir jede Szene, die sich auf dieses Motiv bezieht. Zeige mir jede Figurenreaktion, die davon abhängt. Das System liefert die Liste in Sekunden. Sie gehen sie gemeinsam mit Ihrer Lektorin durch. Sie entscheiden, was umgeschrieben werden muss. Und Sie schreiben es um – als Autorin, nicht als Archäologin. Die KI trifft nicht die kreative Entscheidung. Sie führt die Suche über das gesamte Manuskript sofort aus und gibt Ihnen die Stunden zurück, die Sie früher damit verbracht haben zu finden, wo die Änderung das Buch zerbricht.
So sieht Zustandsverwaltung tatsächlich aus. Nicht KI schreibt Ihren Roman. Sondern KI, die den langweiligen Teil übernimmt, damit Sie Ihre Energie auf den Teil verwenden können, der zählt.
Halten Sie Ihr Buch ehrlich
Ein Buch zu schreiben ist – und soll – ein menschlicher Akt sein. Aber der langweilige Teil ist nicht das Schreiben. Es ist das Erinnern. Wenn Sie eine ganze Trilogie im Kopf halten, verzehren diese Konsistenzprüfungen mehr kreative Energie als das Schreiben selbst.
Das ist der Teil, den ein richtig konzipiertes KI-System gut leisten kann. Nicht Ihr Buch schreiben – es ehrlich halten.
Bei my-book.ai arbeiten wir so: eine menschliche Lektorin an Ihrer Seite, mit KI, die das Driften auffängt, Regelbrüche meldet und die Ausläufer eines Richtungswechsels durch das ganze Manuskript verfolgt – damit die kreative Arbeit dort bleibt, wo sie hingehört.
Wenn diese Art von Zusammenarbeit nützlich klingt, würde ich gern von Ihrem Buch hören.
Marion hat dieselbe Geschichte am Dienstag aus der Perspektive der Autorin erzählt: Wie eine Fantasy-Trilogie alle KI-Schreibtools überforderte – und warum wir etwas Besseres entwickelt haben.