Custom AI Agents · Architecture & Build

Custom AI Agent
Entwicklung.
Maßgeschneidert. Eingebaut. Übergeben.

Skalator baut AI Agents, die in euren Stack gehören — nicht in eine fremde SaaS-Oberfläche. Von der Architektur über Tool-Calling, RAG und Guard-Rails bis zum Deploy auf EU-Server. Mit Code, der euch gehört, und ehrlicher Aussage, wo die Grenzen liegen.

Use-Case besprechen Wie wir bauen

Warum Custom statt Buying

Warum eigene Agents bauen — und nicht eine SaaS-Lösung kaufen.

Es gibt für fast jeden Use Case bereits eine SaaS-Lösung mit einem AI-Agent darin. Für viele ist das ein guter Start. Aber sobald euer Prozess spezifisch wird, eure Daten sensibel oder das Volumen relevant, schlagen vier Punkte zu — und genau da lohnt sich der Custom-Bau.

Standard-SaaS passt selten Off-the-shelf-Agents kennen weder eure API noch eure Tonalität noch eure Daten.

Daten-Hoheit EU-Hosting, DSGVO-konform — auf Wunsch alles self-hosted inkl. LLM.

IP-Eigentum Code, Prompts, Eval-Set, Architektur-Doku — alles gehört euch, kein Lock-In.

Langfristig günstiger Kein Per-Seat-Aufpreis pro Mitarbeiter — Custom Agents skalieren über API-Tokens, nicht Lizenzen.

Stoßt ihr bei SaaS-Agents an Grenzen — Datenhoheit, Custom-Logik oder Volumen?

Build-vs-Buy-Beratung buchen

Was Skalator in einen Agent baut

Sechs Bausteine, die einen Agent von einem Chatbot unterscheiden.

Ein guter Agent ist nicht ein cleverer Prompt. Er ist ein System aus klar definierten Schichten, die zusammenspielen. Jede dieser sechs Schichten bauen wir bewusst — oder erklären euch, warum sie in eurem Fall nicht gebraucht wird.

TASK

Klare Aufgaben-Definition

Ein Agent ohne klares Scope ist ein Chatbot mit Selbstüberschätzung. Wir definieren scharf: was er darf, was er nicht darf, welche Inputs er erwartet, welche Outputs er liefert. Schriftlich, vor jeder Code-Zeile.

TOOLS

Tool-Calling mit eurer API & DB

Der Agent ruft eure echten Endpoints auf — Lead anlegen, Termin buchen, Dokument generieren, Datenbank abfragen. JSON-Schema, Validierung, sauberes Error-Handling. Kein simuliertes Tun, sondern echte Aktionen in eurem Stack.

RAG

RAG für interne Dokumentation

Eure Wissensbasis — Confluence, Notion, PDF-Handbücher, alte Tickets, interne Wikis — wird embedded und vektorisiert. Der Agent zieht Antworten aus euren Quellen, nicht aus seinem Trainingsstand vor zwei Jahren. Mit Quellen-Zitaten.

STATE

Memory & Konversations-State

Persistente Speicherung von Kontext über Sessions hinweg. Der Agent vergisst nicht, was ihr ihm gestern erklärt habt. Memory-Layer in Postgres oder Supabase, mit User-Scoping, TTL und Klar-Endpunkten zum Vergessen.

GUARDS

Guard-Rails & Safety

Kritische Aktionen — Geld bewegen, externe Mails senden, irreversible Schreibvorgänge — gehen nicht ohne menschliche Bestätigung durch. Input-Sanitization, Prompt-Injection-Schutz, Output-Schema-Validierung. Ehrliche Risiko-Karte.

OBS

Monitoring & Logging

Jeder Agent-Call ist nachvollziehbar: Prompt, Reasoning, Tool-Aufruf, Output. Eval-Set zur kontinuierlichen Qualitätsmessung. Wenn die Antwort-Qualität abrutscht, seht ihr es früh — nicht erst über Kundenbeschwerden.

Habt ihr einen Use-Case, der genau diese Architektur-Bausteine braucht?

Discovery-Call buchen

Wie wir arbeiten

Fünf Phasen vom Whiteboard bis zum Deploy.

Kein Big-Bang-Build über Monate ohne Zwischen-Ergebnis. Wir arbeiten in klaren Phasen mit definiertem Output. Jede Phase ist ein Entscheidungs-Punkt: weiter, anpassen, oder ehrlich abbrechen, wenn der Use Case sich als nicht geeignet erweist.

Discovery

Wir klären den Use Case: was soll der Agent leisten, woher kommen die Daten, wo sind die Grenzen? Risiken, die später teuer werden, decken wir hier auf — nicht in Woche 8.

Prototyp

Lauffähiger Happy-Path in 1–2 Wochen. Noch ohne alle Edge-Cases, aber genug, um den Agent in der Hand zu halten und Annahmen früh zu testen.

Pilot

Der Agent läuft mit Echtdaten in einem begrenzten Scope. Wir loggen jeden Call, sammeln Edge-Cases und bauen das Eval-Set auf, gegen das wir später entwickeln.

Hardening

Guard-Rails, Error-Handling, Prompt-Injection-Schutz, Schema-Validierung, Kosten-Caps. Hier wird aus dem funktionierenden Prototyp ein Production-fähiges System.

Deploy

Auf EU-Server oder on-premise. Monitoring scharf gestellt, Eval-Set automatisiert, Übergabe-Doku übergeben. Optional laufende Betreuung — oder Selbstbetrieb.

Skalators Leistung

Was am Ende auf eurer Festplatte liegt.

Wir lassen euch nicht mit einer schwarzen Box zurück. Ein Custom-Agent-Projekt bei Skalator umfasst alles, was ihr braucht, um den Agent danach selbst zu betreiben, weiterzuentwickeln oder zu einer anderen Agentur zu übergeben. Wer keinen sauberen Quellcode mitliefert, hat etwas zu verbergen.

Discovery

Wir klären den Use Case: was soll der Agent leisten, woher kommen die Daten, wo sind die Grenzen? Risiken, die später teuer werden, decken wir hier auf — nicht in Woche 8.

Prototyp

Lauffähiger Happy-Path in 1–2 Wochen. Noch ohne alle Edge-Cases, aber genug, um den Agent in der Hand zu halten und Annahmen früh zu testen.

Pilot

Der Agent läuft mit Echtdaten in einem begrenzten Scope. Wir loggen jeden Call, sammeln Edge-Cases und bauen das Eval-Set auf, gegen das wir später entwickeln.

Hardening

Guard-Rails, Error-Handling, Prompt-Injection-Schutz, Schema-Validierung, Kosten-Caps. Hier wird aus dem funktionierenden Prototyp ein Production-fähiges System.

Deploy

Auf EU-Server oder on-premise. Monitoring scharf gestellt, Eval-Set automatisiert, Übergabe-Doku übergeben. Optional laufende Betreuung — oder Selbstbetrieb.

Im Leistungsumfang

Code · Doku · Übergabe

Discovery-Workshop: Use-Case-Scope, Daten-Audit, Risiko-Bewertung
Architektur-Entwurf mit Diagramm und LLM-Wahl-Begründung
Tool-Schema-Definitionen für eure API-Endpoints
RAG-Pipeline: Embedding, Vektor-Store, Retrieval-Tuning
Memory-Layer in Postgres/Supabase mit User-Scoping
Guard-Rails, Human-in-the-Loop für kritische Aktionen
Eval-Set mit Test-Cases für regelmäßige Qualitäts-Checks
Logging & Monitoring (Reasoning, Tool-Calls, Kosten)
Sauberer Code im eigenen Git-Repo, dokumentiert
Deploy auf EU-Server oder on-premise nach Wahl
Übergabe-Doku und Architektur-Walkthrough für euer Team

Bereit, mit einem Discovery den ersten Custom-Agent sauber zu scopen?

Discovery anfragen

Zusammenarbeit

Drei Modelle, je nach Use Case.

Kein Pauschalpreis von der Stange — der Aufwand für einen Custom Agent hängt davon ab, wie viele Tools angebunden werden, wie sensibel die Daten sind und ob ein Single-Agent reicht oder eine Multi-Agent-Architektur gebraucht wird. Nach einem kurzen Discovery-Call bekommt ihr ein konkretes, unverbindliches Angebot.

Discovery & Architektur

Einmaliges Projekt

Use-Case-Workshop & Daten-Audit
Architektur-Entwurf mit Diagramm
LLM-Wahl und Begründung
Risiko-Bewertung & Roadmap

Häufig gewählt

Single-Agent Build

Projektbasis

Architektur inklusive
Tool-Calling, RAG, Memory
Guard-Rails & Eval-Set
Deploy auf EU-Server
Übergabe inkl. Doku & Code

Multi-Agent & Betrieb

Komplex / laufend

Multi-Agent-Orchestrierung
Komplexe Integrationen
Eval-Set-Pflege & Monitoring
Erweiterungen on demand
Direkter Draht zu Skalator

Welches Modell zu eurem Use Case passt, klären wir im Discovery-Call — inklusive ehrlicher Einschätzung, ob ein Custom Agent überhaupt der richtige Weg ist.

Unverbindliches Angebot anfragen

FAQ

Häufige Fragen zur Custom-Agent-Entwicklung

Wie unterscheidet sich ein Custom Agent von ChatGPT oder Claude.ai?

ChatGPT und Claude.ai sind generische Chat-Oberflächen. Sie kennen weder eure Prozesse, noch eure Daten, noch eure Systeme — und jede Konversation startet bei Null. Ein Custom Agent hingegen kennt euren Use Case, hat Zugriff auf eure API und Datenbank, durchsucht eure interne Doku über RAG, hält Konversations-Memory und arbeitet innerhalb klar definierter Guard-Rails. Statt manuelles Copy-Paste in einen Chat läuft der Agent eingebunden in eure Workflows.

Welches LLM-API verwendet ihr — Claude, GPT oder Open Source?

Default ist Claude (Anthropic) wegen der hohen Tool-Calling-Qualität und sauberen Reasoning-Spuren. OpenAI (GPT-4.1, GPT-5) für Vision-Tasks oder wenn ihr bereits dort verträge laufen habt. Lokale Modelle (Llama, Mistral, Qwen) wenn On-Premise Pflicht ist oder die Daten den Server gar nicht verlassen dürfen. Welches Modell passt, entscheiden wir nach Use Case und Datensensibilität — nicht nach Trend.

Gehört der Code dann uns?

Ja, vollständig. Wir übergeben den Code im Git-Repo eurer Wahl, mit sauberer Doku, Setup-Anleitung und Architektur-Diagramm. Ihr seid jederzeit in der Lage, den Agent intern weiterzuentwickeln oder zu einer anderen Agentur zu wechseln. Keine Lock-Ins, keine versteckte Wartungsabhängigkeit von uns.

Wie geht ihr mit Halluzinationen und Safety um?

Ehrliche Antwort: Halluzinationen lassen sich nicht vollständig eliminieren — aber stark eingrenzen. Wir setzen auf vier Mechanismen: RAG statt freies Reasoning (Quellen statt Erfindungen), strukturierte Outputs mit Schema-Validierung, Guard-Rails für kritische Aktionen (Mensch-in-the-Loop bei DB-Schreibvorgängen, Geld-Transfers, externer Kommunikation), und ein Eval-Set zur kontinuierlichen Qualitätsmessung. Wo das Risiko zu hoch ist, sagen wir es offen — und empfehlen euch eher klassische Software.

Können die Agents self-hosted laufen?

Ja, in zwei Varianten. Variante 1: Agent-Orchestrierung self-hosted auf eurem EU-Server, LLM-Calls weiterhin an Claude/OpenAI-API (verschlüsselt, mit Data-Processing-Agreement). Variante 2: Alles self-hosted, inklusive Open-Source-LLM auf eurer Hardware oder dedizierter GPU-Cloud in der EU. Variante 2 ist teurer und langsamer, dafür verlässt kein Token den Hauseigenen Stack.

Wieviel Wartung braucht ein Agent im laufenden Betrieb?

Mehr als klassische Software, weniger als ein zusätzlicher Mitarbeiter. Drei Wartungs-Felder: Erstens API-Updates der LLM-Provider (Modell-Rotationen, Preis-Änderungen), zweitens Prompt- und Eval-Pflege wenn sich eure Daten oder Prozesse ändern, drittens Monitoring der tatsächlichen Output-Qualität gegen das Eval-Set. Wir bieten eine optionale Betreuung an, oder dokumentieren das Setup so sauber, dass euer Team es selbst übernehmen kann.

Wie läuft die Zusammenarbeit konkret ab?

Discovery-Call → klare Use-Case-Abgrenzung → Angebot mit Aufwand und Zeitfenster. Danach Prototyp in 1–2 Wochen, der den Happy-Path durchspielt. Pilot mit Echtdaten in 2–4 Wochen mit Logging. Hardening (Guard-Rails, Edge-Cases, Eval-Set) in weiteren 2–4 Wochen. Deploy mit Übergabe-Doku. Kein Pauschalpreis, kein Mindestvertrag — der Aufwand hängt vom Use Case ab.

Nächster Schritt

30 Minuten, ehrlich: Wir hören uns euren Use Case an und sagen euch, ob ein Custom Agent der richtige Hebel ist — oder ob ein einfacheres Setup euch zum selben Ergebnis bringt.

Discovery-Call buchen

Custom AI AgentEntwicklung. Maßgeschneidert. Eingebaut. Übergeben.

Warum eigene Agents bauen — und nicht eine SaaS-Lösung kaufen.

Sechs Bausteine, die einen Agent von einem Chatbot unterscheiden.

Klare Aufgaben-Definition

Tool-Calling mit eurer API & DB

RAG für interne Dokumentation

Memory & Konversations-State

Guard-Rails & Safety

Monitoring & Logging

Fünf Phasen vom Whiteboard bis zum Deploy.

Discovery

Prototyp

Pilot

Hardening

Deploy

Was am Ende auf eurer Festplatte liegt.

Discovery

Prototyp

Pilot

Hardening

Deploy

Im Leistungsumfang

Drei Modelle, je nach Use Case.

Discovery & Architektur

Single-Agent Build

Multi-Agent & Betrieb

Häufige Fragen zur Custom-Agent-Entwicklung

Custom AI Agent
Entwicklung.
Maßgeschneidert. Eingebaut. Übergeben.