KI gegen 5 Laboranten: Unser Fazit nach 4 Monaten und über 600 Weizenanalysen

Key Takeaways

Das KI-System erreichte 93,5 % Übereinstimmung mit fünf unabhängigen Laboranten – innerhalb des natürlichen Streubereichs der Expertenurteile.
Frühe Fehler bei verfärbten Körnern, Triticale und kleinen Körnern gingen nach gezieltem Nachtraining auf die Härtefälle stark zurück.
Der Pilot nutzte reale Anlieferungsproben über vier Monate, keine Labordemo – die Ergebnisse spiegeln alltägliche Bewertungsbedingungen wider.
KI hat Laborpersonal nicht ersetzt; es hat die Arbeit verteilt: Routinebewertung automatisiert, Grenzfälle zur Expertenprüfung.

Nach 4 Monaten und mehr als 600 Analysen stand eine letzte Frage im Raum: Was passiert, wenn 5 professionelle Getreidelaboranten und die KI dieselben Weizenproben bewerten? Kommen sie zu den gleichen Ergebnissen?

Das war das Abnahmekriterium, auf das wir uns zu Beginn des Pilotprojekts geeinigt hatten. Keine einfacheren Maßstäbe. Keine Mittelwertbildung unter Idealbedingungen. Fünf unabhängige Experten, ein KI-System, eine finale Testrunde – und das Ergebnis würde darüber entscheiden, ob GrainODM in den Produktiveinsatz geht.

Diese Fallstudie beschreibt, wie es dazu kam.

Warum die Qualitätsbewertung von Getreide schwieriger ist, als es aussieht

Weizen ist nicht gleich Weizen. Wenn eine Charge an einer Getreideannahmestelle eintrifft, bewertet ein geschulter Laborant sie anhand Dutzender Qualitätsparameter: Protein und Feuchtigkeit per Gerät, und eine lange Liste physischer Besatzteile, die weiterhin mit dem menschlichen Auge bewertet werden.

In diesem Pilot haben wir 18 Besatzkategorien verfolgt, darunter:

fusariumbefallene Körner
Gerste, Hafer, Roggen und Triticale
Bruch- und verfärbte Körner
schädlingsgeschädigte, Schmacht- und Auswuchskörner
Schmutz, Fremdsaat, Klettenlabkraut, Spelzen sowie Korn- und Schwarzbesatz (gesamt)

Eine Abweichung in nur einer Kategorie – selbst um Bruchteile eines Prozents – kann eine Charge von Qualitätsstufe 1 auf 4 herabstufen, mit direkten finanziellen Konsequenzen. Mehr dazu, wie Behörden diese Grenzwerte handhaben, in unserem Leitfaden Besatzstandards für Getreide.

Wie in traditionellen Laboren einzelne Mängel wie Auswuchs erkannt werden, beschreiben wir in der Fallstudie Weizenauswuchs-Erkennung.

Die Bewertung ist von Natur aus subjektiv. Zwei erfahrene Laboranten, die dieselbe Partie verfärbter Körner beurteilen, kommen nicht immer auf denselben Prozentsatz. Das ist kein Mangel an Fachwissen. Es liegt in der Natur der visuellen Bonitur auf Kornebene unter realen Arbeitsbedingungen.

Genau deshalb haben wir uns entschieden, uns nicht mit nur einem Laboranten zu vergleichen. Fünf unabhängige Experten lieferten uns die natürliche Schwankungsbreite bei der Beurteilung durch Fachleute – und damit einen aussagekräftigen Vergleichsmaßstab.

Phase 1: Das Pilotprojekt startet – und die Härtefälle zeigen sich

Das Pilotprojekt startete im August 2025 bei einer großen Agrar-Holding. GrainODM lief parallel zum bestehenden Laborbetrieb des Kunden – dieselben realen, eingehenden Getreidepartien wurden zeitgleich analysiert. Jede Woche wertete das Team die Ergebnisse gemeinsam aus, und die Erkenntnisse flossen zurück in das Training des Modells.

Am Ende der vier Monate waren so über 600 Einzelanalysen zusammengekommen.

Die ersten Wochen waren die lehrreichsten. Drei Kategorien erwiesen sich als die größten Herausforderungen:

Verfärbte Körner erreichten in Woche 1 eine maximale Abweichung von 21,43 %. Die Ursache: schwankende Lichtverhältnisse bei der Bildaufnahme, kombiniert mit der inhärenten Subjektivität bei der Frage, was als „verfärbt“ gilt – ein Urteil, das selbst erfahrene Laboranten je nach Weizensorte unterschiedlich fällten.

Triticale (Roggen-Weizen-Hybride) wies einen maximalen Fehler von 13,89 % auf. Triticale hat so viele morphologische Gemeinsamkeiten mit Weizen, dass das Modell ohne eine ausreichende Anzahl an Beispielen Schwierigkeiten hatte, beides konsistent zu unterscheiden.

Schmachtkorn (kleine/geschrumpfte Körner) erreichte 9,37 %. Das Problem war eine Abweichung zwischen der visuellen Definition von „klein“ durch das Modell und der Definition des Labors, die auf der Siebgröße basiert.

Das waren keine zufälligen Fehler. Für jeden gab es eine klare, diagnostizierbare Ursache – und damit auch eine klare Lösung.

Der Lernprozess: Von Daten zur Verbesserung

Dies ist der Teil der KI-Entwicklung, der leicht unterschätzt wird. Das Modell war kein statisches System, das einmal installiert wurde und dann lief. Die Ergebnisse jeder Woche wurden analysiert, Ursachen identifiziert und die Trainingsdaten aktualisiert. Mehr Proben. Präziseres Labeling. Gezielte Regeln für Grenzfälle.

Meilensteine der Modell-Updates während des Pilotprojekts:

Wann	Update
Erste Woche	Leicht verfärbte Körner aus Datensatz entfernt; mehr Beispiele für gesunde Weizensorten hinzugefügt
Zweite Woche	Konfidenzregel für Triticale-Erkennung eingeführt: Unsichere Klassifizierungen werden verworfen statt erzwungen
Fünfte Woche	Neues Modell aufgespielt: Verbesserte Erkennung von Triticale und helleren Körnern
Sechste Woche	Fusarium-Update: Beispiele für rosa und weißen Fusariumbefall hinzugefügt; Labeling für eindeutige Krankheitsbilder bereinigt
Siebte Woche	Schmachtkorn: Körner >2 mm aus dieser Kategorie ausgeschlossen, um dem Siebstandard des Labors zu entsprechen

Das Muster ist systematisch: Identifizieren, wo das Modell vom Expertenurteil abweicht, die Ursache verstehen, mehr Daten für diesen speziellen Fall hinzufügen, neu trainieren und erneut messen. So verbessert sich die Leistung der KI mit der Zeit.

Im selben Zeitraum wurde bei den wöchentlichen Auswertungen noch etwas anderes deutlich. Bei mehreren Proben erkannte GrainODM Besatz, den das Labor mit 0,00 % bewertet hatte:

Besatzart	GrainODM-Ergebnis	Laborergebnis
Auswuchs	1,05 %	0,00 %
Auswuchs	0,95 %	0,00 %
Beschädigte Körner	0,90 %	0,00 %
Gerste	0,08 %	0,00 %

Die KI lag nicht falsch. Sie arbeitete im Grenzbereich der menschlichen Wahrnehmung und erkannte einzelne Körner, die während einer langen Schicht in einer ansonsten sauber aussehenden Partie leicht übersehen werden. Die durchgehende Prüfung jedes einzelnen Korns in jeder Probe ist eine Stärke, bei der Maschinen dem Menschen auf Dauer überlegen sind.

Die Ergebnisse des Lernprozesses

Ende September war die Verbesserung bereits messbar:

Triticale: von 13,89 % maximaler Abweichung auf 0,25 % – eine Reduzierung um 98 %
Schmachtkorn: von 9,37 % auf 1,70 % – eine Reduzierung um 82 %
Verfärbte Körner: von 21,43 % auf 6,96 % – eine Reduzierung um 68 %

Jede Verbesserung basierte auf demselben Mechanismus: gezieltere Daten, besseres Labeling und eine klarere Abgrenzung der Kategorien. Das Modell wurde nicht allgemein intelligenter – es wurde intelligenter bei spezifischen Härtefällen, weil wir ihm mehr Beispiele genau dafür vorgelegt haben.

Genau so sieht die Entwicklung einer KI in der Praxis aus.

Phase 2: Der finale Test

Am 21. Januar 2026, nach vier Monaten mit Paralleltests, führten wir die offizielle Validierung durch.

Fünf professionelle Getreidelaboranten analysierten unabhängig voneinander 16 Weizenproben. GrainODM analysierte dieselben Proben. Niemand sah die Ergebnisse der anderen, bis alle Auswertungen abgeschlossen waren. Jede Probe wurde anhand von 18 Besatzkategorien bewertet und einer Qualitätsstufe zugeordnet.

Das war der entscheidende Moment. Bestehen wir die Validierung, geht das System in Produktion. Scheitern wir, müssen wir zurück ans Reißbrett.

Die Ergebnisse

Metrik	Ergebnis
KI stimmte mit mind. 1 Laboranten überein	96,2 %
KI stimmte mit 3 von 5 Laboranten überein	95 %
Ø KI-Übereinstimmung mit allen Laboranten	93,5 %
KI stimmte mit allen 5 Laboranten überein	85 %

Zwei Besatzkategorien erreichten 100 % Übereinstimmung zwischen KI und allen Laboranten (Spelzen und Auswuchs), in anderen – z. B. Fremdsaat und beschädigte Körner – bleibt Verbesserungspotenzial.

Was die Zahlen wirklich bedeuten

Um diese Ergebnisse einzuordnen, braucht es Kontext.

Als die fünf Laboranten dieselben Proben unabhängig voneinander bewerteten, lag ihre durchschnittliche Übereinstimmung untereinander bei 95,2 %. Sie sind Experten, aber sie sind auch nur Menschen – die subjektive Beurteilung feiner visueller Unterschiede führt dazu, dass sie nicht immer zum exakt gleichen Ergebnis kommen.

GrainODM erreichte eine Übereinstimmung von 93,5 %.

Dieser Wert liegt innerhalb der natürlichen Schwankungsbreite menschlicher Expertenurteile. Das System nähert sich diesem Wert nicht nur an – es liegt mittendrin. Die KI arbeitet auf dem Niveau eines geschulten Laboranten. Statistisch gesehen ist es also so, als würde man mit GrainODM einen sechsten Experten ins Team holen.

Um diese Zahl noch klarer einzuordnen: Als die fünf Laboranten dieselben 16 Proben unter identischen Bedingungen und nach denselben Klassifizierungsregeln bewerteten, kamen sie bei 6 von 16 Proben nicht einstimmig zur gleichen Qualitätsstufe. In 2 Fällen gab es tatsächlich eine 3-zu-2-Aufteilung – was bedeutet, dass dieselbe Partie, beurteilt von einer anderen Gruppe von Laboranten an einem anderen Tag, eine andere Einstufung hätte erhalten können.

Die Einstufung auf Qualitätsklassenebene ist also immer auch eine Frage des Ermessens – selbst dann, wenn alle nach demselben Regelwerk arbeiten.

Genau hier kommt Konsistenz ins Spiel. GrainODM wendet bei jeder Probe, jedes Mal, dieselbe Logik an – keine Unterschiede zwischen Schichten, keine zunehmende Ermüdung, kein schleichender subjektiver Drift. Bei identischen Eingaben liefert das System identische Ausgaben – etwas, das kein menschlicher Bewerter in großem Maßstab garantieren kann.

Die Entscheidung: Freigabe für den Produktiveinsatz

Das Pilotprojekt hat die Validierung bestanden. Die Ergebnisse bestätigen, dass die KI unter realen Anlieferungsbedingungen auf Expertenniveau arbeiten kann.

Echte Getreidepartien. Echte, finanziell relevante Einstufungen. Die Ergebnisse des Systems fließen direkt in die Entscheidungen zur Qualitätsstufe ein – von 1 bis 4 –, die über Preis, Lagerung und weitere Verarbeitung entscheiden. Das ist keine Sandbox. Hier sind die Auswirkungen real.

Was das für die Qualitätskontrolle von Getreide bedeutet

Die Qualitätsbewertung von Getreide erforderte schon immer qualifiziertes Personal. Daran wird sich auch nichts ändern.

Was sich ändert, ist die Verteilung der Aufgaben. Ein System, das auf dem Niveau menschlicher Experten arbeitet – konsistent über Tausende von Proben, ohne zu ermüden, und das an der Grenze der menschlichen Wahrnehmung erkennt –, verändert, womit Fachleute ihre Zeit verbringen. Die Routineklassifizierung wird automatisiert. Die Grenzfälle, die uneindeutigen Partien, die Trendanalysen über Lieferanten hinweg – all das bleibt bei den Menschen, die dafür ausgebildet sind, sich damit zu befassen.

Die Frage war nie, ob KI Getreidelaboranten ersetzen kann. Die Frage war: Kann eine KI zuverlässig genug arbeiten, um an ihrer Seite zu bestehen?

Nach 4 Monaten, über 600 Analysen und einer formalen Validierung gegen fünf unabhängige Experten lautet die Antwort: Ja.

Häufig Gestellte Fragen

Über 16 Weizenproben und 18 Besatzkategorien erzielte die KI eine durchschnittliche Übereinstimmung von 93,5 % mit fünf unabhängigen Laboranten. Die Übereinstimmung der menschlichen Laboranten untereinander lag bei 95,2 %, die KI lag damit im natürlichen Streubereich der Expertenurteile.

Alle Proben stammten aus realen Weizenanlieferungen eines Handelsunternehmens. Die KI und das Labor bewerteten dieselben Partien über etwa vier Monate parallel, mit hunderten Routine-Priefungen, nicht mit einem handverlesenen Testset.

Die anspruchsvollsten Kategorien waren verfärbte Körner, Triticale und kleine bzw. geschrumpfte Körner sowie Fusariumbefall. Gezieltes Nachtraining reduzierte die Fehler in den ersten drei Kategorien deutlich; für bessere Fusarium-Klassifikation werden weitere hochwertig gelabelte Daten benötigt.

Die Zahlen dieser Fallstudie gelten für Weizen und die Bewertungsstandards dieses Betriebs. Der Validierungsprozess – KI parallel laufen lassen, mit mehreren Experten vergleichen, schwierige Fälle iterativ verbessern – lässt sich jedoch für andere Kulturen, Standorte und Qualitätssysteme wiederholen.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

KI gegen 5 Laboranten: Unser Fazit nach 4 Monaten und über 600 Weizenanalysen

Key Takeaways

Häufig Gestellte Fragen

Wie genau stimmte die KI mit den Laboranten überein?

Welche Proben wurden im Pilotprojekt verwendet?

Wo hatte die KI die größten Schwierigkeiten?

Lassen sich die Ergebnisse auf andere Kulturen oder Standorte übertragen?

The New Standard in Grain Purity Analysis