Over BIQE AI HTR SaaS
Een praktische oplossing voor een hardnekkig probleem: historische handschriften leesbaar maken op schaal.
Het probleem
Nederlandse archieven bevatten miljoenen pagina's handschrift van vóór 1950. Die zijn digitaal gescand, maar niet doorzoekbaar. Wie iets zoekt in een register uit 1894 moet het met de hand doornemen.
Handmatige transcriptie is duur — ongeveer €5–€15 per pagina, afhankelijk van kwaliteit en lengte. Voor grote collecties betekent dat budgetten die snel in de miljoenen lopen. Gevolg: veel materiaal blijft ongecatalogiseerd.
Geautomatiseerde HTR (Handwritten Text Recognition) kan dit goedkoper, maar de nauwkeurigheid van de beste open-source modellen ligt rond de 8–15% foutpercentage op regel-niveau. Voor publicatie of serieus onderzoek is dat niet goed genoeg.
Onze aanpak
Wij voegen één stap toe aan de standaard HTR-pijplijn: een correctielaag gebaseerd op een groot taalmodel dat de ruwe output in context plaatst.
Een detectiemodel vindt de regels op de pagina en bepaalt de leesvolgorde.
Een HTR-model leest elk tekstregel karakter voor karakter. Output is ruw — vaak met typografische fouten die voor een mens duidelijk onjuist zijn.
Onze laag stuurt afbeelding en ruwe transcriptie naar een LLM dat contextuele kennis heeft van taal, periode en documenttype. Het resultaat is substantieel nauwkeuriger.
Voorbeeld: een 19e-eeuws administratief document dat ruw uitkomt als "Straff ge van genis te Goes voor het" wordt na correctie "Strafgevangenis te Goes voor het". De fout wordt hersteld omdat het LLM weet dat "strafgevangenis" een bestaand woord is en de gefragmenteerde versie niet.
Technische principes
Correctie, geen hercreatie
Het LLM krijgt zowel de afbeelding als de ruwe transcriptie. Het werkt als proeflezer, niet als hervertaler. Zo minimaliseren we hallucinaties.
Coördinaten blijven behouden
We corrigeren tekst binnen de bestaande PageXML-structuur. Bounding boxes, leesvolgorde en regel-id's blijven onveranderd — u kunt doorzoekbare PDF's of ALTO-files direct exporteren.
Prompt-presets per documenttype
Het prompt dat het LLM aanstuurt, is gespecialiseerd per documenttype. Een 17e-eeuws register krijgt andere instructies dan een 20e-eeuws typoscript. Nieuwe presets voegen we snel toe voor specifieke klantprojecten.
Model-agnostisch
We routeren per tier naar het best-passende model (Gemini, Claude, GPT-4o, DeepSeek en andere). Als één provider down is of een nieuw, beter model beschikbaar komt, wijzigt dit voor onze klanten niet.
Meetresultaten
Op een test-corpus van 19e-eeuwse Zeeuwse administratieve documenten halen we de volgende foutpercentages (Character Error Rate, op regel-niveau):
| Stap | Foutpercentage (CER) | Opmerking |
|---|---|---|
| HTR alleen (zonder correctie) | ~8–12% | Standaard HTR-output met republic-model |
| Met BIQE correctielaag — Balanced | ~2–3% | Gemini 3 Flash |
| Met BIQE correctielaag — Best | ~1–2% | Claude Sonnet 4.6. Let op: niet altijd beter dan Balanced op Nederlandse tekst — zie pilot. |
Resultaten variëren per materiaal. Bij de pilot testen we op een kleine selectie van uw eigen documenten — dan zien we direct welke tier het beste past.
Over de ontwikkelaar
BIQE AI HTR SaaS is ontwikkeld door Jannes Hoekman, actief in de digitalisering van historisch materiaal. De software is gebaseerd op open-source componenten (voor layout-analyse en HTR gebruiken wij publiekelijk beschikbare modellen); de correctielaag en orchestratie zijn eigen werk.
Contact voor vragen, pilot-aanvragen of samenwerking: [email protected].