KI-Steuerberater Projekt

PDF-Belege automatisch in DATEV-Buchungssatze umwandeln. Kooperation mit Prof. Dr. Falko Tappen.

Stand: 03.04.2026 Video-Call: 16.04.2026 Status: Research Phase
17%
Unternehmen nutzen KI in Buchhaltung (Bitkom 2025)
80%
Kanzleien mit Fachkraftemangel (Taxdoo 2025)
12-18
Monate Zeitfenster bevor DATEV aufholt
9 Wo.
MVP-Timeline (erfahrener Entwickler)

📊 Marktanalyse DACH + International

Direkte Wettbewerber (PDF zu DATEV)

Anbieter Land Kann PDF zu DATEV? KI-Tiefe Zielgruppe Schwache
Finmatics AT/DACH Ja, tief ML-Kontierung, mandantenspezifisch lernend Kanzleien Kein LLM-Ansatz, AT-Fokus (RZL), Pricing unklar
DATEV Automatisierung DE Ja, nativ KI-Buchungsvorschlage, Copilot (Chat) DATEV-Kanzleien Langsame Innovation, Copilot = Chat, kein FIBU-Automat
BuchhaltungsButler DE DATEV-Export Selbstlernend, 95% Automatisierung SMBs Keine Kanzlei-Architektur, begrenzte FIBU-Tiefe
Candis DE DATEV-Export OCR + Vorkontierung KMUs Fokus Approval, nicht Buchungssatz. 369+ EUR/Mo
Tabula (YC W24) DE LLM zu DATEV LLM-basiert, $4.6M Funding Kanzleien Fruh, kleines Team (5), direkter Wettbewerber!
Taxforce DE In Entwicklung KI-native Kanzlei Eigene Kanzlei Tenet-Fonds Roll-up, nicht als Tool verfugbar
sevDesk DE CSV/XML OCR-Level Freelancer/KMU Keine tiefe Kontierung, kein Kanzlei-Tool
lexoffice DE DATEVconnect Basis-OCR Freelancer Minimale KI, reine SMB-Losung

Internationale Player (kein DATEV)

Anbieter Land KI-Level Besonderheit DATEV?
Vic.ai NO 1 Mrd+ trainierte Rechnungen, 85% No-Touch Technologisch fuhrend Nein
Rossum CZ 95-98% template-freie Extraktion Beste OCR/Extraktion Nein
Dext UK Marktfuhrer Belegerfassung Xero/QuickBooks Nein
Truewind US AI Bookkeeping QuickBooks-Fokus Nein
Botkeeper US AI + Human Bookkeeping QuickBooks/Xero Nein
Bench CA Ubernommen (Ende 2024) Geschlossen/Employer 1-800-Accountant Nein

🎯 Die Marktlucke

Warum das Projekt Sinn macht

Niemand kombiniert drei Dinge gleichzeitig:

  1. Moderne LLMs (GPT-4 Vision / Claude) fur kontextbasierte Kontierung
  2. Mandantenspezifisches Wissen (Buchungshistorie als RAG-Kontext)
  3. Tiefe DATEV-Integration (EXTF-Buchungsstapel, korrekte BU-Schlussel, Validierung)

Finmatics kommt am nachsten, nutzt aber kein LLM. DATEV selbst ist zu langsam. Tabula (YC) baut dasselbe, ist aber noch fruh. Tappens Vorteil: Domain-Expertise + echte Mandanten + Trainingsdaten vom Tag 1.

Open-Source Bausteine: pydatev (Python DATEV-Format), TaxHacker (LLM Steuer-Ansatz), invoice2data (Rechnungs-OCR)

👥 CTO-Kandidaten Shortlist

15 Kandidaten recherchiert. Gerankt nach: LLM-Produkterfahrung, DATEV-Nahe, Shipping-Mentalitat, Verfugbarkeit.

Tier 1: Top-Kandidaten - Sofort kontaktieren

Aleksander Heimrath
ex-CTO Candis (2021-2024)
Prio A

3 Jahre exakt dasselbe Problem gelost: PDF-Rechnungen zu DATEV-Buchungen via KI bei Candis.

9 Jahre CTO-Erfahrung (Rocket Internet, Lendico, Alteos). M.Sc. TU Dresden. Kennt DATEV-Schnittstellen in- und auswendig.

Status: Scheint seit Dez 2024 nicht mehr bei Candis. Perfektes Timing-Fenster.

Risiko: Konnte bereits im nachsten Startup stecken. Moglicherweise "das Thema durch".

DATEV-Experte LLM-Produktion FinTech
LinkedIn
Daniel Bartholomae
CTO & Co-Founder Fideus | @the_startup_cto
Prio A

Baut gerade KI-Steuerberatung: Belegabgleich, Fristenmonitoring, OPOS bei Fideus (900K Pre-Seed).

Ex-CTO Optilyz, McKinsey-Background. Mathe/Physik-Studium. Aktiver Open-Source-Dev, APX Mentor.

Ansatz: Kooperation statt Abwerbung (Fideus = Holdings-Nische, nicht laufende FIBU).

Risiko: Eigenes Startup. Eher Sparringspartner als CTO.

Steuer-KI aktiv Open Source Eigenes Startup
LinkedIn GitHub
Keyvan Hardani
AI Research & Engineering | Indie-Hacker
Prio A

Hat bereits DATEV-AI-Tool gebaut: Open-Source auf GitHub (Datev-AI-Datenautomatisierung).

Nutzt GPT-4 Vision API fur DATEV-Docs. Hat Qwen Vision-Language Models auf deutsche Dokumente fine-tuned.

Ideal fur MVP-Phase: Indie-Hacker-Mentalitat, baut und shipped schnell. Niedrige Kontaktschwelle.

Risiko: Kein CTO-Track-Record in Unternehmen. Eher Einzelkampfer.

DATEV-AI gebaut LLM Fine-Tuning Open Source
GitHub Portfolio

Tier 2: Relevant, aber gebunden

Burkhard Reffeling
CTO & Co-Founder Taxforce | ex-Klarna
Tier 2

Ex-Head of Engineering Klarna (140+ Ingenieure). Baut KI-native Steuerkanzlei.

Nutzen: Netzwerk-Kontakt, Erfahrungsaustausch. Tenet-Fonds (80M) macht Roll-ups.

Gebunden Steuer-KI Klarna-Scale
LinkedIn
Patrick Sagmeister
CTO & Co-Founder Finmatics, Wien
Tier 2

DER DATEV-KI-Partner: 800+ Steuerberater-Kunden, 100+ MA. Seit 2016 an dem Problem.

Nutzen: Kooperationspartner oder Finmatics-Alumni als Kandidaten.

Gebunden 800+ Kanzlei-Kunden
Dr. Sebastian B. Rose
Data Science Lead sevDesk
Prio A

Hat ML/Data-Science-Team bei sevDesk aufgebaut. KI fur Buchhaltung in Produktion.

Nutzen: Praktische Erfahrung KI + DATEV-Export.

ML in Produktion DATEV-Export
LinkedIn
Mario Hachemer
CTO FastBill, Frankfurt
Tier 2

6+ Jahre CTO bei FastBill (Cloud-Buchhaltung). FastBill 2024 von Grundern zuruckgekauft - mogliche Unruhe.

Risiko: Unklar ob AI/ML-Tiefe. Eher klassischer Engineering-CTO.

Moglicherweise Buchhaltung

Tier 3: Indie-Hacker / MVP-Phase

Jonas Witt
Entwickler | stripe-datev-exporter
Tier 3

Hat Open-Source Stripe-zu-DATEV-Exporter gebaut. Versteht DATEV-Formate. Python.

Risiko: Kein AI/ML-Background. Fur DATEV-Schnittstelle nutzlich, nicht als alleiniger CTO.

GitHub
Linus (CTO Finto)
YC S25 | AI Accounting fur Enterprises
Tier 3

Invoice-to-Pay Automatisierung. Ex-Tech-Lead Tacto. Munchner Startup-Szene.

Nutzen: Finto-Alumni oder abgeworbene Ingenieure konnten interessant sein.

Wettbewerber-Watch

UnternehmenTeamFundingBedrohung
Tabula (YC W24, Berlin) Tim Hermes (ex-Taxfix), Leo von Kleist (ex-Hive CTO, ETH) $4.6M Direkt
Finmatics (Wien/Berlin) Patrick Sagmeister, 100+ MA VC-backed Hoch
Supercount AI (Linz) Markus Waghubinger Fruh Mittel (AT)
boring.tax (Berlin) Juan Garcia-Berdoy, Thomas Flassbeck Bootstrapped Mittel

Technischer Plan

DATEV-Import: EXTF-CSV Format (kein API notig)

Einfachster Weg: EXTF-CSV Datei generieren, Steuerberater importiert mit 1 Klick in DATEV Rechnungswesen.

Kritische Header-Felder: Kennung="EXTF", Version=700, Sachkontenlange=4, SKR="03", korrektes Wirtschaftsjahr + Buchungszeitraum.

Haufigste Fehler (vermutlich Tappens Kollege):

  • Encoding: UTF-8 statt Windows-1252 (DATEV braucht ANSI!)
  • Dezimalformat: Punkt statt Komma (muss 56,72 sein)
  • Sachkontenlange falsch (4 vs 6 Stellen)
  • BU-Schlussel inkompatibel mit Kontotyp
  • Belegdatum ausserhalb Header-Buchungszeitraum

Library: pydatev (pip install pydatev) - einzige Python-Library fur DATEV-Format

Datenschutz: Mandantendaten + Cloud-KI

Problem: §203 StGB + §57 StBerG = Verschwiegenheitspflicht. Mandantendaten an US-Cloud-APIs senden = Straftat.

Losung fur MVP:

  • Option A: Self-hosted LLM (Llama 3.1 70B auf Hetzner DE) - Beste Option
  • Option B: Anonymisierung vor API-Call (Firmennamen/StNr ersetzen, Betrage bleiben)
  • Option C: Azure OpenAI EU-Region mit AVV + §203-Vereinbarung

Zwingend notig: AVV nach Art. 28 DSGVO + Verschwiegenheitsverpflichtung nach §203 Abs. 4 StGB

Realistische Genauigkeit

MetrikMonat 1Monat 3Monat 6+
OCR-Extraktion korrekt95%+95%+98%+
Richtiges Sachkonto60-70%75-85%85-90%
Richtiger BU-Schlussel70-80%80-90%90%+
Komplett korrekte Buchung50-60%65-75%80%+

80/20-Regel: KI schlagt 80% korrekt vor. StB reviewed alle, korrigiert 20%. System lernt aus Korrekturen. Von 5 Min/Beleg auf 30 Sek/Beleg.

🔧 MVP-Pipeline

1. InputPDF Upload / Email
2. OCRAzure Doc AI + pdfplumber
3. ExtraktionFelder + Confidence
4. KontierungLLM + RAG (SKR03)
5. ValidierungRegelprufung + Score
6. ReviewStB pruft (Streamlit UI)
7. ExportEXTF-CSV (pydatev)

Tech Stack

KomponenteTechnologieBegrundung
SprachePython 3.11+Bestes ML/LLM-Okosystem, pydatev ist Python
BackendFastAPIAsync, schnell, API-first
FrontendStreamlit (MVP)Schnellster Weg zu funktionalem UI
OCRAzure Document IntelligenceBester Benchmark fur DE-Rechnungen
LLMLlama 3.1 70B (Self-hosted)Datenschutz, keine Cloud-APIs fur Mandantendaten
RAGChromaDBEmbedded, einfach, reicht fur MVP
DATEV ExportpydatevEinzige Python-Library fur DATEV-Format
HostingHetzner Cloud (DE)DSGVO, gunstig, performant

📅 Aktionsplan bis 16.04.2026

03.-04. April
Email an Tappen senden
Fehlermeldungen des Kollegen anfordern. Testdaten (anonymisierte PDFs). SKR03/04 bestatigen. Budget-Vorstellung klaren. Lauras Verfugbarkeit.
07. April
CTO-Kandidaten kontaktieren
Aleksander Heimrath (LinkedIn). Keyvan Hardani (GitHub). Daniel Bartholomae (Twitter). Raphael nach Kontakten fragen.
08. April
Tappen liefert Daten
Screenshots DATEV-Fehlermeldungen. Tool/Script des Kollegen. Beispiel-Belege. Budget-Range.
09. April
Marktanalyse finalisieren
Finmatics, Candis, Tabula - Abgrenzung klar dokumentiert. Positioning Statement.
10.-12. April
Technische Voranalyse
Fehlermeldungen kategorisieren. Lösungsansatze skizzieren. Einschatzung: reparierbar oder neu starten?
13.-14. April
CTO-Kurzprofile aufbereiten
Pro Kandidat: Hintergrund, Passung, Verfugbarkeit, Engagement-Modell. Min. 3 Kandidaten mit Ruckmeldung.
15. April
Call-Vorbereitung
Agenda an Tappen senden. Prasentation finalisieren. Technik testen.
16. April - VIDEO-CALL
60-90 Min mit Tappen + Benjamin
1. Status Kollege (10 min) | 2. Marktanalyse (10 min) | 3. Tech-Einschatzung (10 min) | 4. CTO-Kandidaten (15 min) | 5. Roadmap + Budget (15 min) | 6. Laura-Integration (10 min) | 7. Nachste Schritte (10 min)

Entscheidungen im Call

Build vs. Buy

Eigenlosung bauen oder Finmatics/Candis anpassen?

Budget Phase 1

15-30K EUR fur 8-Wochen-Prototyp mit Freelance-CTO

CTO-Auswahl

Welchen Kandidaten kontaktieren? Wer fuhrt das Gesprach?

Dominiks Rolle

Advisory (1-2h/Wo), Projektsteuerung, oder Vermittler?