Custom AI Agent
Entwicklung.
Maßgeschneidert. Eingebaut. Übergeben.
Skalator baut AI Agents, die in euren Stack gehören — nicht in eine fremde SaaS-Oberfläche. Von der Architektur über Tool-Calling, RAG und Guard-Rails bis zum Deploy auf EU-Server. Mit Code, der euch gehört, und ehrlicher Aussage, wo die Grenzen liegen.
Warum eigene Agents bauen — und nicht eine SaaS-Lösung kaufen.
Es gibt für fast jeden Use Case bereits eine SaaS-Lösung mit einem AI-Agent darin. Für viele ist das ein guter Start. Aber sobald euer Prozess spezifisch wird, eure Daten sensibel oder das Volumen relevant, schlagen vier Punkte zu — und genau da lohnt sich der Custom-Bau.
Stoßt ihr bei SaaS-Agents an Grenzen — Datenhoheit, Custom-Logik oder Volumen?
Build-vs-Buy-Beratung buchenSechs Bausteine, die einen Agent von einem Chatbot unterscheiden.
Ein guter Agent ist nicht ein cleverer Prompt. Er ist ein System aus klar definierten Schichten, die zusammenspielen. Jede dieser sechs Schichten bauen wir bewusst — oder erklären euch, warum sie in eurem Fall nicht gebraucht wird.
Klare Aufgaben-Definition
Ein Agent ohne klares Scope ist ein Chatbot mit Selbstüberschätzung. Wir definieren scharf: was er darf, was er nicht darf, welche Inputs er erwartet, welche Outputs er liefert. Schriftlich, vor jeder Code-Zeile.
Tool-Calling mit eurer API & DB
Der Agent ruft eure echten Endpoints auf — Lead anlegen, Termin buchen, Dokument generieren, Datenbank abfragen. JSON-Schema, Validierung, sauberes Error-Handling. Kein simuliertes Tun, sondern echte Aktionen in eurem Stack.
RAG für interne Dokumentation
Eure Wissensbasis — Confluence, Notion, PDF-Handbücher, alte Tickets, interne Wikis — wird embedded und vektorisiert. Der Agent zieht Antworten aus euren Quellen, nicht aus seinem Trainingsstand vor zwei Jahren. Mit Quellen-Zitaten.
Memory & Konversations-State
Persistente Speicherung von Kontext über Sessions hinweg. Der Agent vergisst nicht, was ihr ihm gestern erklärt habt. Memory-Layer in Postgres oder Supabase, mit User-Scoping, TTL und Klar-Endpunkten zum Vergessen.
Guard-Rails & Safety
Kritische Aktionen — Geld bewegen, externe Mails senden, irreversible Schreibvorgänge — gehen nicht ohne menschliche Bestätigung durch. Input-Sanitization, Prompt-Injection-Schutz, Output-Schema-Validierung. Ehrliche Risiko-Karte.
Monitoring & Logging
Jeder Agent-Call ist nachvollziehbar: Prompt, Reasoning, Tool-Aufruf, Output. Eval-Set zur kontinuierlichen Qualitätsmessung. Wenn die Antwort-Qualität abrutscht, seht ihr es früh — nicht erst über Kundenbeschwerden.
Habt ihr einen Use-Case, der genau diese Architektur-Bausteine braucht?
Discovery-Call buchenFünf Phasen vom Whiteboard bis zum Deploy.
Kein Big-Bang-Build über Monate ohne Zwischen-Ergebnis. Wir arbeiten in klaren Phasen mit definiertem Output. Jede Phase ist ein Entscheidungs-Punkt: weiter, anpassen, oder ehrlich abbrechen, wenn der Use Case sich als nicht geeignet erweist.
Discovery
Wir klären den Use Case: was soll der Agent leisten, woher kommen die Daten, wo sind die Grenzen? Risiken, die später teuer werden, decken wir hier auf — nicht in Woche 8.
Prototyp
Lauffähiger Happy-Path in 1–2 Wochen. Noch ohne alle Edge-Cases, aber genug, um den Agent in der Hand zu halten und Annahmen früh zu testen.
Pilot
Der Agent läuft mit Echtdaten in einem begrenzten Scope. Wir loggen jeden Call, sammeln Edge-Cases und bauen das Eval-Set auf, gegen das wir später entwickeln.
Hardening
Guard-Rails, Error-Handling, Prompt-Injection-Schutz, Schema-Validierung, Kosten-Caps. Hier wird aus dem funktionierenden Prototyp ein Production-fähiges System.
Deploy
Auf EU-Server oder on-premise. Monitoring scharf gestellt, Eval-Set automatisiert, Übergabe-Doku übergeben. Optional laufende Betreuung — oder Selbstbetrieb.
Was am Ende auf eurer Festplatte liegt.
Wir lassen euch nicht mit einer schwarzen Box zurück. Ein Custom-Agent-Projekt bei Skalator umfasst alles, was ihr braucht, um den Agent danach selbst zu betreiben, weiterzuentwickeln oder zu einer anderen Agentur zu übergeben. Wer keinen sauberen Quellcode mitliefert, hat etwas zu verbergen.
Discovery
Wir klären den Use Case: was soll der Agent leisten, woher kommen die Daten, wo sind die Grenzen? Risiken, die später teuer werden, decken wir hier auf — nicht in Woche 8.
Prototyp
Lauffähiger Happy-Path in 1–2 Wochen. Noch ohne alle Edge-Cases, aber genug, um den Agent in der Hand zu halten und Annahmen früh zu testen.
Pilot
Der Agent läuft mit Echtdaten in einem begrenzten Scope. Wir loggen jeden Call, sammeln Edge-Cases und bauen das Eval-Set auf, gegen das wir später entwickeln.
Hardening
Guard-Rails, Error-Handling, Prompt-Injection-Schutz, Schema-Validierung, Kosten-Caps. Hier wird aus dem funktionierenden Prototyp ein Production-fähiges System.
Deploy
Auf EU-Server oder on-premise. Monitoring scharf gestellt, Eval-Set automatisiert, Übergabe-Doku übergeben. Optional laufende Betreuung — oder Selbstbetrieb.
Im Leistungsumfang
Code · Doku · Übergabe- Discovery-Workshop: Use-Case-Scope, Daten-Audit, Risiko-Bewertung
- Architektur-Entwurf mit Diagramm und LLM-Wahl-Begründung
- Tool-Schema-Definitionen für eure API-Endpoints
- RAG-Pipeline: Embedding, Vektor-Store, Retrieval-Tuning
- Memory-Layer in Postgres/Supabase mit User-Scoping
- Guard-Rails, Human-in-the-Loop für kritische Aktionen
- Eval-Set mit Test-Cases für regelmäßige Qualitäts-Checks
- Logging & Monitoring (Reasoning, Tool-Calls, Kosten)
- Sauberer Code im eigenen Git-Repo, dokumentiert
- Deploy auf EU-Server oder on-premise nach Wahl
- Übergabe-Doku und Architektur-Walkthrough für euer Team
Bereit, mit einem Discovery den ersten Custom-Agent sauber zu scopen?
Discovery anfragenDrei Modelle, je nach Use Case.
Kein Pauschalpreis von der Stange — der Aufwand für einen Custom Agent hängt davon ab, wie viele Tools angebunden werden, wie sensibel die Daten sind und ob ein Single-Agent reicht oder eine Multi-Agent-Architektur gebraucht wird. Nach einem kurzen Discovery-Call bekommt ihr ein konkretes, unverbindliches Angebot.
Discovery & Architektur
- Use-Case-Workshop & Daten-Audit
- Architektur-Entwurf mit Diagramm
- LLM-Wahl und Begründung
- Risiko-Bewertung & Roadmap
Single-Agent Build
- Architektur inklusive
- Tool-Calling, RAG, Memory
- Guard-Rails & Eval-Set
- Deploy auf EU-Server
- Übergabe inkl. Doku & Code
Multi-Agent & Betrieb
- Multi-Agent-Orchestrierung
- Komplexe Integrationen
- Eval-Set-Pflege & Monitoring
- Erweiterungen on demand
- Direkter Draht zu Skalator
Welches Modell zu eurem Use Case passt, klären wir im Discovery-Call — inklusive ehrlicher Einschätzung, ob ein Custom Agent überhaupt der richtige Weg ist.
Unverbindliches Angebot anfragenHäufige Fragen zur Custom-Agent-Entwicklung
Wie unterscheidet sich ein Custom Agent von ChatGPT oder Claude.ai?
ChatGPT und Claude.ai sind generische Chat-Oberflächen. Sie kennen weder eure Prozesse, noch eure Daten, noch eure Systeme — und jede Konversation startet bei Null. Ein Custom Agent hingegen kennt euren Use Case, hat Zugriff auf eure API und Datenbank, durchsucht eure interne Doku über RAG, hält Konversations-Memory und arbeitet innerhalb klar definierter Guard-Rails. Statt manuelles Copy-Paste in einen Chat läuft der Agent eingebunden in eure Workflows.
Welches LLM-API verwendet ihr — Claude, GPT oder Open Source?
Default ist Claude (Anthropic) wegen der hohen Tool-Calling-Qualität und sauberen Reasoning-Spuren. OpenAI (GPT-4.1, GPT-5) für Vision-Tasks oder wenn ihr bereits dort verträge laufen habt. Lokale Modelle (Llama, Mistral, Qwen) wenn On-Premise Pflicht ist oder die Daten den Server gar nicht verlassen dürfen. Welches Modell passt, entscheiden wir nach Use Case und Datensensibilität — nicht nach Trend.
Gehört der Code dann uns?
Ja, vollständig. Wir übergeben den Code im Git-Repo eurer Wahl, mit sauberer Doku, Setup-Anleitung und Architektur-Diagramm. Ihr seid jederzeit in der Lage, den Agent intern weiterzuentwickeln oder zu einer anderen Agentur zu wechseln. Keine Lock-Ins, keine versteckte Wartungsabhängigkeit von uns.
Wie geht ihr mit Halluzinationen und Safety um?
Ehrliche Antwort: Halluzinationen lassen sich nicht vollständig eliminieren — aber stark eingrenzen. Wir setzen auf vier Mechanismen: RAG statt freies Reasoning (Quellen statt Erfindungen), strukturierte Outputs mit Schema-Validierung, Guard-Rails für kritische Aktionen (Mensch-in-the-Loop bei DB-Schreibvorgängen, Geld-Transfers, externer Kommunikation), und ein Eval-Set zur kontinuierlichen Qualitätsmessung. Wo das Risiko zu hoch ist, sagen wir es offen — und empfehlen euch eher klassische Software.
Können die Agents self-hosted laufen?
Ja, in zwei Varianten. Variante 1: Agent-Orchestrierung self-hosted auf eurem EU-Server, LLM-Calls weiterhin an Claude/OpenAI-API (verschlüsselt, mit Data-Processing-Agreement). Variante 2: Alles self-hosted, inklusive Open-Source-LLM auf eurer Hardware oder dedizierter GPU-Cloud in der EU. Variante 2 ist teurer und langsamer, dafür verlässt kein Token den Hauseigenen Stack.
Wieviel Wartung braucht ein Agent im laufenden Betrieb?
Mehr als klassische Software, weniger als ein zusätzlicher Mitarbeiter. Drei Wartungs-Felder: Erstens API-Updates der LLM-Provider (Modell-Rotationen, Preis-Änderungen), zweitens Prompt- und Eval-Pflege wenn sich eure Daten oder Prozesse ändern, drittens Monitoring der tatsächlichen Output-Qualität gegen das Eval-Set. Wir bieten eine optionale Betreuung an, oder dokumentieren das Setup so sauber, dass euer Team es selbst übernehmen kann.
Wie läuft die Zusammenarbeit konkret ab?
Discovery-Call → klare Use-Case-Abgrenzung → Angebot mit Aufwand und Zeitfenster. Danach Prototyp in 1–2 Wochen, der den Happy-Path durchspielt. Pilot mit Echtdaten in 2–4 Wochen mit Logging. Hardening (Guard-Rails, Edge-Cases, Eval-Set) in weiteren 2–4 Wochen. Deploy mit Übergabe-Doku. Kein Pauschalpreis, kein Mindestvertrag — der Aufwand hängt vom Use Case ab.
30 Minuten, ehrlich: Wir hören uns euren Use Case an und sagen euch, ob ein Custom Agent der richtige Hebel ist — oder ob ein einfacheres Setup euch zum selben Ergebnis bringt.
Discovery-Call buchen