Infrastruktur für KI-Agenten

Der Stack, den Agenten brauchen.
Produktionsreif.

n8n, LangFuse, LiteLLM, Qdrant, Vault – wir bauen die Infrastruktur, die KI-Agenten in mittleren und großen Unternehmen produktionsreif macht. Self-hosted, observabel, DSGVO-konform.

Open SourceKein Vendor Lock-in

Self-hostedIhre Infrastruktur

DSGVOKonform

Infrastruktur-Audit anfragen Stack ansehen ↓

agent-stack.yaml

healthy

🔀

Orchestrierungn8n

🧠

LLM GatewayLiteLLM

📊

ObservabilityLangFuse

📐

Vector DBQdrant

🔐

SecretsVault

⚡

ComputeKubernetes

6 layers active

self-hosted · eu-central-1

// Das Problem

Agenten bauen ist einfach. Agenten betreiben ist es nicht.

Einen KI-Agenten als Prototyp zu bauen dauert Stunden. Ihn in einem Unternehmen mit 500+ Mitarbeitern produktionsreif zu betreiben – mit Observability, Security, Skalierung und Compliance – erfordert eine durchdachte Infrastruktur.

Wir bauen genau diese Infrastruktur: Open-Source-basiert, self-hosted, DSGVO-konform. Kein SaaS-Lock-in, volle Kontrolle über Ihre Daten und Ihre Agenten.

// Orchestrierung

n8n: Die Schaltzentrale für Ihre Agenten

n8n ist Open-Source, self-hosted und verbindet alles: LLMs, Datenbanken, APIs, Webhooks. Visueller Workflow-Editor für Non-Devs, Code-Nodes für Entwickler.

📄

Dokument-Agent orchestrieren

Webhook empfängt Dokument → n8n triggert OCR → LLM klassifiziert → Daten werden extrahiert → Ergebnis an ERP/DMS.

Webhook→OCR Service→LLM (LiteLLM)→Router→SAP/DMS

✉️

E-Mail-Triage automatisieren

IMAP-Trigger → LLM analysiert Intent & Priorität → n8n routet an Team → Ticket wird erstellt → Auto-Reply gesendet.

IMAP Trigger→LLM Classify→Jira/Zendesk→SMTP Reply

🤖

Multi-Agent Coordination

n8n als Orchestrator: Research-Agent sammelt Daten → Analyse-Agent bewertet → Report-Agent erstellt Zusammenfassung.

Scheduler→Research Agent→Analysis Agent→Report Agent

📐

RAG Pipeline betreiben

Neue Dokumente in S3 → n8n triggert Chunking → Embeddings via OpenAI → Upsert in Qdrant → Slack-Notification.

S3 Trigger→Unstructured→Embedding API→Qdrant→Slack

400+ Integrationen

SAP, Salesforce, Jira, Slack, Teams, Confluence, DATEV, SharePoint – n8n hat fertige Nodes für alle Enterprise-Systeme.

Visual + Code

Business-User bauen Workflows visuell, Entwickler nutzen Code-Nodes für komplexe Logik. Hybrid-Ansatz.

Self-hosted & Fair-Code

n8n läuft in Ihrem K8s-Cluster. Ihre Daten bleiben bei Ihnen. Fair-Code-Lizenz erlaubt unlimitierte Nutzung.

// Enterprise-Anforderungen

Was mittelgroße und große Firmen wirklich brauchen

Agent-Infrastruktur für Mittelstand und Enterprise muss mehr können als ein PoC. Diese Anforderungen begegnen uns in jedem Projekt.

📊

Observability

●Token-Kosten pro Agent, Team und Use Case aufschlüsseln
●Latenz-Budgets einhalten (P95, P99)
●Prompt-Qualität über Zeit messen (Evals)
●Fehlerhafte Agent-Runs automatisch erkennen
●End-to-End-Traces über Multi-Agent-Workflows

Unsere Lösung

LangFuse + Grafana + OpenTelemetry

🔐

Sicherheit

●API-Keys rotieren ohne Downtime
●PII-Daten vor LLM-Calls redactieren
●Prompt Injection erkennen und blockieren
●DSGVO: Daten in EU halten, Löschfristen einhalten
●Audit-Trail für alle Agent-Aktionen

Unsere Lösung

Vault + Guardrails + RBAC + EU-Hosting

📈

Skalierung

●Lastspitzen abfangen (10x Traffic in Minuten)
●GPU-Kosten kontrollieren (Scale-to-Zero)
●Multi-Tenancy: Teams isolieren, Budgets setzen
●Queue-basierte Verarbeitung für Batch-Workloads
●Graceful Degradation bei Provider-Ausfällen

Unsere Lösung

Kubernetes + HPA + LiteLLM-Fallback

⚙️

Betrieb

●Agent-Updates ohne Downtime (Rolling Deployments)
●Prompt-Versioning: Rollback zu früheren Versionen
●A/B-Testing: neue Prompts gegen bestehende testen
●Alerting bei Qualitäts-Regression
●Self-Healing: fehlerhafte Agents automatisch neu starten

Unsere Lösung

GitOps + LangFuse Experiments + K8s

// Vergleich

Ohne vs. mit Agent-Infrastruktur

Aspekt

Ohne Infrastruktur

Mit Agent-Stack

LLM-Kosten-Transparenz

Monatliche Überraschung

Cost Attribution pro Agent & Team

Prompt-Qualität

Trial & Error in Prod

Evaluations + A/B-Tests

Ausfallsicherheit

Single-Provider-Abhängigkeit

Multi-Provider-Fallback

Sicherheit

API-Keys in .env

Vault + Auto-Rotation

Skalierung

Manuelles Eingreifen

Auto-Scaling + Scale-to-Zero

Debugging

Log-Suche in 10 Services

Distributed Traces (1 Klick)

// Technologie-Stack

Der komplette Agent-Infrastruktur-Stack

Open-Source-first. Self-hosted. Jeder Baustein austauschbar. Kein Vendor Lock-in.

Orchestrierung & Workflows

Die zentrale Steuerung: Hier werden Agenten-Workflows definiert, getriggert und überwacht.

n8n

Empfohlen

Open-Source Workflow-Automation mit 400+ Integrationen. Self-hosted, visueller Editor, Webhook-Trigger, Branching-Logik. Die zentrale Drehscheibe für Agent-Orchestrierung.

LangGraph

Framework für komplexe, statebasierte Agent-Graphen mit Zyklen, Bedingungen und Human-in-the-Loop.

⏱️

Temporal

Durable Execution Engine für langlebige, fehlertolerante Workflows. Ideal für Multi-Step-Agenten mit Retries.

LLM Gateway & Routing

Eine einheitliche API für alle LLM-Provider – mit Fallback, Load Balancing und Cost Tracking.

LiteLLM

Empfohlen

Unified API für 100+ LLM-Provider (OpenAI, Anthropic, Mistral, lokale Modelle). Automatisches Fallback, Rate Limiting und Cost Tracking.

vLLM

High-Throughput LLM Serving mit PagedAttention. Für Self-Hosted-Modelle wie Llama, Mistral oder Mixtral.

🦙

Ollama

Lokales LLM-Serving für Development und Edge-Deployments. Einfaches Setup, GPU-Unterstützung.

Observability & Monitoring

Ohne Observability kein produktiver Betrieb. Jeder LLM-Call, jede Agent-Aktion, jeder Token muss nachvollziehbar sein.

LangFuse

Empfohlen

Open-Source LLM-Observability: Traces, Token-Kosten, Latenz, Prompt-Versioning, Evaluations und User-Feedback – alles in einem Dashboard.

Grafana + Prometheus

Infrastructure Monitoring: CPU, Memory, GPU-Auslastung, Queue-Depth, Error Rates und Custom-Metriken für Agent-Services.

OpenTelemetry

Distributed Tracing über alle Agent-Interaktionen hinweg. End-to-End-Sichtbarkeit vom User-Request bis zum LLM-Response.

Vektor-Datenbanken & RAG

Agenten brauchen Zugriff auf Unternehmenswissen. Vektor-Datenbanken und RAG-Pipelines machen das möglich.

Qdrant

Empfohlen

High-Performance Vektor-Datenbank in Rust. Filterable Search, Multi-Tenancy, Snapshots. Self-hosted oder Cloud.

pgvector

PostgreSQL-Erweiterung für Vektor-Similarity-Search. Ideal wenn bereits PostgreSQL im Einsatz ist.

📄

Unstructured

Document Processing Pipeline: PDFs, Word, PowerPoint, E-Mails automatisch in Chunks für die Vector DB aufbereiten.

Security & Governance

Enterprise-Anforderungen: Wer darf was? Wo landen Daten? Wie wird auditiert?

🔐

HashiCorp Vault

Empfohlen

Secrets Management für API-Keys, Tokens und Credentials. Dynamic Secrets, Auto-Rotation, Audit-Log.

🛡️

Guardrails & PII-Filter

Prompt Injection Detection, PII Redaction, Content Filtering. Schutz vor Missbrauch und Datenlecks in LLM-Interaktionen.

👤

RBAC & Audit

Role-Based Access Control für Agent-Aktionen. Jede Aktion wird geloggt – wer hat wann welchen Agent mit welchem Ergebnis genutzt.

Compute, State & Messaging

Die Basis-Infrastruktur: Container-Orchestrierung, State Management und Event-Streaming.

K8s

Kubernetes

Empfohlen

Container-Orchestrierung für alle Agent-Services. Auto-Scaling, Health Checks, Rolling Updates. GPU-Node-Pools für Inference.

Redis

Agent-State, Semantic Cache für LLM-Responses, Session Management. Reduziert LLM-Kosten durch Cache-Hits um bis zu 40%.

📨

Apache Kafka / NATS

Event-Streaming für Agent-zu-Agent-Kommunikation, asynchrone Task-Verarbeitung und Event-Sourcing.

// Architektur-Stufen

Vom PoC zur Enterprise-Plattform

Wir skalieren die Infrastruktur mit Ihren Anforderungen. Starten Sie klein, wachsen Sie organisch.

🌱Starter

PoC & erste Agent-Use-Cases

Für erste Agent-Projekte: Ein LLM-Provider, Basic-Orchestrierung, einfaches Monitoring.

✓n8n (Self-hosted)
✓LiteLLM (1 Provider)
✓LangFuse (Basic)
✓pgvector
✓Docker Compose

🏢Professional

Produktiver Betrieb (10+ Agents)

Für produktive Workloads: Multi-Provider, volle Observability, Kubernetes, Security-Layer.

✓n8n + Temporal
✓LiteLLM (Multi-Provider + Fallback)
✓LangFuse + Grafana + OTel
✓Qdrant Cluster
✓Kubernetes + Vault
✓Guardrails + PII-Filter

🏗️Enterprise

Enterprise (50+ Agents, Multi-Team)

Für große Organisationen: Multi-Tenancy, GPU-Cluster, Self-Hosted-LLMs, Full Compliance.

✓n8n + Temporal + LangGraph
✓LiteLLM + vLLM (Self-Hosted LLMs)
✓Full Observability Stack
✓Qdrant Cluster (Multi-Tenant)
✓K8s + GPU-Nodes + HPA
✓Vault + SSO + RBAC + Audit
✓Private Endpoints + VPC-Isolation

// Unser Vorgehen

Von der Analyse zum produktiven Agent-Stack

Wir begleiten Sie von der ersten Bestandsaufnahme bis zum laufenden Betrieb.

Bestandsaufnahme

Welche Systeme sind im Einsatz? Welche Agent-Use-Cases haben Priorität? Wo liegen Daten? Wie sieht die Cloud-Landschaft aus?

Stack-Design

Wir designen den Agent-Stack passend zu Ihren Anforderungen: Orchestrierung, LLM-Gateway, Observability, Security.

Deployment

Infrastructure as Code: Terraform/Pulumi Modules, Helm Charts, CI/CD-Pipelines. Alles versioniert und reproduzierbar.

Betrieb & Tuning

Monitoring-Dashboards, Alerting, Cost-Optimierung, Prompt-Tuning. Wir bleiben dran, bis die Agenten performen.

// Offene Standards

Kein Vendor Lock-in. Volle Kontrolle.

Jeder Baustein basiert auf offenen Standards und Open-Source-Software. Sie können alles selbst betreiben, ersetzen oder erweitern.

MCPoffen

Model Context Protocol

Offenes Protokoll für die Anbindung von KI-Agenten an Ihre Tools, IDEs und Datenquellen – ohne proprietäre SDKs.

A2Aoffen

Agent-to-Agent Protocol

Standardisierte Kommunikation zwischen KI-Agenten verschiedener Hersteller – Ihre Agenten arbeiten zusammen, egal woher sie kommen.

Skillsoffen

Skills-basierte Architektur

Modulare KI-Fähigkeiten, die sich kombinieren und wiederverwenden lassen – wie Microservices, aber für Agenten.

Multi-LLMoffen

Kein Anbieter-Lock-in

OpenAI, Anthropic, Mistral, Llama oder Self-Hosted – wir integrieren den besten Provider für Ihren Use Case. Jederzeit wechselbar.

Self-Hostedoffen

Volle Datenkontrolle

Betreiben Sie KI-Agenten in Ihrer eigenen Infrastruktur. Ihre Daten verlassen nie Ihr Netzwerk – DSGVO-konform und auditierbar.

Open Sourceoffen

Transparenz & Auditierbarkeit

Wir bevorzugen Open-Source-Werkzeuge und offene Formate. Kein Black-Box-Vendor, volle Transparenz über die eingesetzten Komponenten.

// Weitere Leistungen

Infrastruktur ist die Basis – Agenten machen den Unterschied

KI-Agenten für Geschäftsprozesse →

Dokumentenverarbeitung, E-Mail-Triage, Vertragsanalyse – autonome Agenten für Ihre Abteilungen, betrieben auf dieser Infrastruktur.

Cloud-Infrastruktur →

AWS, GCP oder Azure – die Cloud-Basis für Ihren Agent-Stack. GPU-Compute, Kubernetes, Terraform, Multi-Cloud.

Agent-Infrastruktur für Ihr Unternehmen

In einem kostenlosen Erstgespräch analysieren wir Ihre Anforderungen und designen den passenden Agent-Stack – von n8n bis LangFuse.

Erstgespräch vereinbaren Mehr über uns

Der Stack, den Agenten brauchen.Produktionsreif.

Agenten bauen ist einfach. Agenten betreiben ist es nicht.

n8n: Die Schaltzentrale für Ihre Agenten

Dokument-Agent orchestrieren

E-Mail-Triage automatisieren

Multi-Agent Coordination

RAG Pipeline betreiben

Was mittelgroße und große Firmen wirklich brauchen

Observability

Sicherheit

Skalierung

Betrieb

Ohne vs. mit Agent-Infrastruktur

Der komplette Agent-Infrastruktur-Stack

Orchestrierung & Workflows

LLM Gateway & Routing

Observability & Monitoring

Vektor-Datenbanken & RAG

Security & Governance

Compute, State & Messaging

Vom PoC zur Enterprise-Plattform

PoC & erste Agent-Use-Cases

Produktiver Betrieb (10+ Agents)

Enterprise (50+ Agents, Multi-Team)

Von der Analyse zum produktiven Agent-Stack

Bestandsaufnahme

Stack-Design

Deployment

Betrieb & Tuning

Kein Vendor Lock-in. Volle Kontrolle.

Infrastruktur ist die Basis – Agenten machen den Unterschied

KI-Agenten für Geschäftsprozesse →

Cloud-Infrastruktur →

Agent-Infrastruktur für Ihr Unternehmen

Der Stack, den Agenten brauchen.
Produktionsreif.