07 /Engineering-Manifest

Wie ich mit KI-Agents arbeite, bevor Sie mit mir arbeiten.

session-orchestrator ist das Plugin, mit dem ich Multi-Agent-Sessions strukturiere. Open Source, kontinuierlich versioniert. Sie können es selbst lesen, installieren und fork-en.

02 /Was ist session-orchestrator

Fünf Fakten, die zeigen, wie das Plugin funktioniert.

5 typisierte Wellen pro SessionDiscovery zuerst, Quality zuletzt. Jede Wave hat eine klare Eingabe, Ausgabe und ein Abnahmekriterium.
Inter-Wave ReviewsExplizite Confidence-Scores statt Pauschal-OK. Kein Code-Merge ohne Gate-Pass.
STATE.md persistiertCrashes resumen statt von vorne beginnen. Der Kontext bleibt session-übergreifend erhalten.
Markdown-onlyKein Runtime-Code. Entfernen Sie das Plugin, Ihr Editor funktioniert weiter.
session-orchestrator: 7360+ Tests, 40+ Skills, 20 CommandsMIT-Lizenz. Node.js 20+. Kompatibel mit Claude Code, Codex CLI und Cursor IDE.

03 /Wie ich damit baue

Drei Beispiele aus der Praxis, sichtbar in diesem Projekt.

Discovery zuerstWave-Plan vor Code. Verhindert Scope-Creep und stellt sicher, dass alle Agents denselben Kontext haben.
Wave-Gates als RegressionsschutzJede Wave-Abnahme fegt Fehler auf, bevor sie in den Main-Branch gelangen.
Cross-Session LearningsPatterns werden in learnings.jsonl festgehalten und in Folgesessions automatisch eingespeist.

OSS Repository Signals

CI bei jedem Push

typecheck
lint
wording-lint
Unit-Tests (diese Website)
secret-scan
npm-audit
build
e2e (Playwright)

Pipeline läuft auf privat gehosteter CI bei jedem Commit auf main. Kein öffentliches Badge, da Infrastruktur privat. Jobliste statt Dekoration.

Production-Eval mit Rubrik + Cost-Assert (Promptfoo)

providers:
  - id: openai:gpt-4o-mini
  - id: anthropic:claude-3-5-sonnet-20241022

tests:
  - description: Kritischer Incident
    vars:
      betreff: Kritischer Fehler im Checkout-Flow
      nachricht: Kunde kann Bestellung nicht abschließen. Zahlungsgateway sendet Fehler. Dringende Hilfe erforderlich.
    prompt: |
      Klassifiziere folgende Support-Anfrage nach Priorität und Kategorie.
      Betreff: {{betreff}}
      Nachricht: {{nachricht}}
      Ausgabe: Priorität (CRITICAL | HIGH | NORMAL) und Kategorie (TECHNICAL | BILLING | FEATURE).
    assert:
      - type: llm-rubric
        value: Erkennt echte Production-Incidents (Zahlungsfehler, Systemausfälle, Datenverlust) zuverlässig. Vergibt CRITICAL nur dafür, nicht für Usability-Wünsche.
        threshold: 0.85
      - type: cost
        threshold: 0.003

  - description: Feature-Request als dringend falsch klassifiziert
    vars:
      betreff: Idee für eine mobile App
      nachricht: Es wäre praktisch, wenn ich Ihre Website auch von meinem Handy aus nutzen könnte. Können Sie das anbieten?
    prompt: |
      Klassifiziere folgende Support-Anfrage nach Priorität und Kategorie.
      Betreff: {{betreff}}
      Nachricht: {{nachricht}}
      Ausgabe: Priorität (CRITICAL | HIGH | NORMAL) und Kategorie (TECHNICAL | BILLING | FEATURE).
    assert:
      - type: llm-rubric
        value: Unterscheidet Produktwünsche von echten Incidents. Vergibt NORMAL oder HIGH (nie CRITICAL) für Feature-Requests.
        threshold: 0.85
      - type: cost
        threshold: 0.003

  - description: Billing-Dispute mit mittlerer Priorität
    vars:
      betreff: Falsche Rechnung für den letzten Monat
      nachricht: Ich wurde doppelt berechnet. Bitte prüfen Sie meine Rechnungshistorie und korrigieren Sie das.
    prompt: |
      Klassifiziere folgende Support-Anfrage nach Priorität und Kategorie.
      Betreff: {{betreff}}
      Nachricht: {{nachricht}}
      Ausgabe: Priorität (CRITICAL | HIGH | NORMAL) und Kategorie (TECHNICAL | BILLING | FEATURE).
    assert:
      - type: llm-rubric
        value: Erkennt Billing-Probleme und stuft sie als HIGH (nicht CRITICAL) ein, damit echte Notfälle die Queue nicht blockieren.
        threshold: 0.80
      - type: cost
        threshold: 0.003

Realer Promptfoo-Lauf aus einem Champion-Pilot. Support-Email-Klassifikation mit LLM-Rubrik (Qualität) und Cost-Budget pro Test. Erkennt echte Incidents vs. Feature-Requests.

eval / results - 5 rows · model: gpt-4o-mini · grader: claude-sonnet-4-5

5/5 PASS

#	Prompt	Antwort (gekürzt)	Kriterium	Pass	Score	Cost
01	Erkläre KI-Bias in einem Satz für Einsteiger.	KI-Systeme können Vorurteile aus Trainingsdaten übernehmen und so systematisch bestimmte Gruppen benachteiligen.	Prägnant, korrekt, kein Fachjargon	PASS	0.92	$0.0004
02	Nenne drei DSGVO-Pflichten beim Einsatz von KI.	Informationspflicht, Zweckbindung und Recht auf Erklärung bei automatisierten Entscheidungen.	Mindestens 3 korrekte Punkte	PASS	1.00	$0.0006
03	Wie erkläre ich EU-AI-Act-Compliance dem Vorstand?	Der EU AI Act stuft KI-Systeme nach Risiko ein; Hochrisiko-Anwendungen brauchen Dokumentation, Audits und menschliche Aufsicht.	Vorstandstauglich, keine Gesetzeszitate	PASS	0.88	$0.0005
04	Was ist der Unterschied zwischen ChatGPT und einem Fine-tuned Model?	ChatGPT ist ein Allzweckmodell; ein fine-getuntes Modell wurde auf spezifischen Daten weitertrainiert und ist daher in seiner Domäne präziser.	Technisch korrekt, verständlich für Laien	PASS	0.95	$0.0004
05	Beschreibe ein Halluzinationsrisiko bei LLMs.	LLMs können überzeugend klingende, aber faktisch falsche Informationen generieren, ein Risiko besonders in juristischen oder medizinischen Kontexten.	Konkretes Risikobeispiel enthalten	PASS	0.90	$0.0003

Reproduzierbar mit promptfoo eval --output results.html. Werte aus echtem Eval-Lauf, keine KI-generierten Platzhalter.

04 /Was das sagt

Was session-orchestrator über meinen Engineering-Stil sagt.

Struktur statt Velocity

Ich liefere keine Features per Sprint-Rush. Ich liefere Systeme, die nach der Übergabe weitergebaut werden können.

Verification Gates statt Vertrauen

Jede Wave endet mit einem expliziten Gate. Kein implizites "das funktioniert schon".

Lesbare Entscheidungen

Alle Entscheidungen landen als Markdown in der Codebase, nicht in Slack-Threads oder im Kopf.

Portabilität statt Lock-in

Das Plugin ist reines Markdown. Es läuft auf drei Plattformen. Sie brauchen kein proprietäres Tool.

Pragmatismus über Perfektion

Das Plugin ist nicht fertig, es ist reif genug. Die nächste Version kommt, wenn ein echter Bedarf entsteht.

05 /Was ich vermeide

Drei Anti-Patterns, die session-orchestrator bewusst nicht macht.

Agent ohne Gate laufen lassen

Ein Agent, der ohne Prüfschritt durchläuft, produziert Code, den niemand gegenliest. Jede Wave endet hier mit einem Gate, bevor die nächste startet.

Kontext im Chatverlauf statt im Repo

Entscheidungen, die nur im Verlauf eines Agenten stehen, sind nach der Sitzung verloren. Sie gehören als Markdown in die Codebase, wo der nächste Lauf sie wieder findet.

Output ohne Verifikation für fertig halten

"Sieht gut aus" ist kein Abschluss. Ein Schritt gilt erst als erledigt, wenn ein Test oder eine reproduzierbare Prüfung ihn bestätigt.

06 /Compliance & Datenschutz

Wie DSGVO und EU AI Act in die Architektur passen.

session-orchestrator ist ein Orchestrierungs-Framework, kein Datenverarbeiter. Es strukturiert Multi-Agent-Workflows, ohne selbst Kundendaten zu berühren. Die Compliance-Anforderungen (DSGVO Art. 28, EU AI Act) liegen beim Projekt. Genau dort begleite ich Sie im Sparring und in der Umsetzung.

DSGVO Art. 28 AuftragsverarbeitungKlare DPA-Templates für die genutzten Cloud-Provider (Anthropic, Azure EU, AWS EU). Wir dokumentieren, welcher Provider welche Daten verarbeitet.
EU AI Act KlassifizierungHigh-Risk-Systeme (z. B. HR-Scoring, Kreditentscheidungen) brauchen spezielle Tests und Dokumentation. Wir bauen das von Anfang an ein, nicht nachträglich.
Self-Hosted / On-Prem mit § 9 RAOEigene Infrastruktur statt fremder Cloud. Mandantendaten bleiben bei Ihnen, in Ihrer Hand, unter Ihrer Kontrolle. Anwaltsgeheimnis nach § 9 RAO und vergleichbare Berufsgeheimnisse (Steuerberater, Ärzte, Banken) bleiben gewahrt. Optional Self-Hosted-LLM und Pipeline auf Ihrer Infrastruktur, Aufpreis auf Anfrage.

DPA-Vorlage (Datenverarbeitungsvereinbarung)

Bereit zum Anpassen: § 28 DSGVO + § 9 RAO + Berufsgeheimnis-Klauseln.

DPA-Vorlage herunterladen

Stand: 2026-06. Kein Rechtsberatungs-Ersatz. Vor Anwendung anwaltlich prüfen lassen.

08 /Das Repository

session-orchestrator auf GitHub.

Installation in Claude Code

/plugin marketplace add Kanevry/session-orchestrator
/plugin install session-orchestrator@kanevry

Voraussetzung: Node.js 20 oder neuer.

Unterstützte Plattformen

Claude Code
Codex CLI
Cursor IDE

Repository auf GitHub

Sie sehen, wie ich arbeite. Lassen Sie uns gemeinsam arbeiten.

30 Minuten Erstgespräch, unverbindlich. Oder schauen Sie sich das Repository selbst an.

Erstgespräch vereinbaren Repository ansehen