AI vs. 5 laborantů: Co jsme zjistili po 4 měsících a více než 600 testech pšenice

Po 4 měsících a více než 600 testech zbývala jediná otázka: nechat 5 profesionálních laborantů a naši AI posoudit naprosto stejné vzorky pšenice. Shodnou se?

To byl klíčový validační test, na kterém jsme se dohodli na začátku pilotního projektu. Žádná mírnější kritéria. Žádné průměrování za ideálních podmínek. Pět nezávislých expertů, jeden systém AI, jedno společné testování – a výsledek měl rozhodnout, zda GrainODM přejde do ostrého provozu.

Tato případová studie popisuje, jak jsme k tomu dospěli.

Proč je hodnocení jakosti obilí těžší, než se zdá

Pšenice není jen pšenice. Když do sila nebo zpracovatelského závodu dorazí nová partie, vyškolený laborant ji zatřídí podle desítek jakostních parametrů. V tomto pilotním projektu jsme sledovali 18 různých kategorií příměsí a nečistot, mimo jiné:

zrna poškozená fuzariózou (houbové onemocnění)
ječmen, oves, žito a tritikale (žito–pšenice)
zlomková, zlomená a ztmavlá / zbarvená zrna
zrna poškozená škůdci, porostlá zrna a drobná / scvrklá zrna
ostatní příměsi, semena cizích plodin a plevelů, obsah tuku, plevy a celkové příměsi zrnin / nečistoty

Změna v jakékoli kategorii – i o zlomky procenta – může přeřadit partii z jakostní třídy 1 do třídy 4, což má přímé finanční dopady. Chcete-li vidět, jak regulátoři vymezují tyto limity v širším kontextu, popisujeme to v našem průvodci standardy příměsí v obilí. Podrobnosti o tom, jak se v tradičních laboratořích detekují jednotlivé vady, například naklíčená zrna, najdete v naší případové studii detekce klíčení pšenice.

Hodnocení je také z podstaty subjektivní. Dva zkušení laboranti, kteří se dívají na stejný vzorek ztmavlých zrn, nedojdou vždy ke stejnému procentuálnímu vyhodnocení. To není selhání jejich odbornosti. Taková je podstata vizuálního hodnocení jednotlivých zrn v reálných provozních podmínkách.

Právě proto jsme se rozhodli neporovnávat výsledky s jediným laborantem. Pět nezávislých expertů nám poskytlo přirozenou míru neshody mezi odborníky – a tím i relevantní laťku pro naše srovnání.

Fáze 1: Pilotní projekt začíná – a objevují se problematické případy

Pilotní projekt jsme spustili v srpnu 2025 ve spolupráci s velkým zemědělským holdingem. GrainODM fungoval souběžně s běžným provozem laboratoře klienta – analyzoval stejné reálné příchozí partie obilí ve stejný čas. Každý týden jsme společně procházeli výsledky a zjištěné poznatky zapracovávali zpět do modelu.

Na konci čtyř měsíců jsme takto nasbírali data z více než 600 samostatných testů.

První týdny byly nejpřínosnější. Jako nejproblematičtější se ukázaly tři kategorie:

Ztmavlá zrna dosáhla v 1. týdnu maximální odchylky 21,43 %. Příčina: kolísání světelných podmínek při snímání v kombinaci s vrozenou subjektivitou v posuzování toho, co se ještě považuje za „ztmavlé“ zrno – hodnocení, které se i u laborantů lišilo v závislosti na konkrétní odrůdě pšenice.

Tritikale vykazovalo maximální chybu 13,89 %. Tritikale – kříženec žita a pšenice – má s pšenicí tolik společných morfologických znaků, že je náš model bez dostatku příkladů nedokázal spolehlivě rozlišit.

Drobná / scvrklá zrna dosáhla odchylky 9,37 %. Problém spočíval v rozdílu mezi tím, jak model definoval „drobná“ zrna (vizuálně), a jak je definovala laboratoř (pomocí sít).

Nešlo o náhodná selhání. Každé mělo jasnou, diagnostikovatelnou příčinu – což znamenalo, že pro každé existovalo jasné řešení.

Smyčka zpětné vazby: od dat ke zlepšení

Toto je část vývoje AI, která se snadno podcení. Model nebyl statický systém, který bychom jen nainstalovali a nechali běžet. Každý týden jsme analyzovali výsledky, identifikovali příčiny chyb a aktualizovali trénovací data. Více vzorků. Přesnější anotace. Cílená pravidla pro okrajové případy.

Milníky aktualizací modelu během pilotního projektu:

Kdy	Aktualizace
První týden	Odstranění jen mírně ztmavlých zrn z datové sady; rozšíření příkladů zdravých odrůd pšenice
Druhý týden	Implementace pravidla spolehlivosti pro detekci žita – nejisté klasifikace jsou zamítnuty, nikoli potvrzeny
Pátý týden	Nasazení nového modelu: vylepšená detekce tritikale a klasifikace světlejších zrn
Šestý týden	Aktualizace pro fuzariózní zrna: přidány příklady růžového a bílého napadení; zpřesnění anotací u vzorků s jasnými příznaky
Sedmý týden	Drobná zrna: zrna >2 mm vyloučena z kategorie scvrklých, aby definice odpovídala laboratornímu standardu (třídění na sítech)

Postup je záměrný: identifikovat, kde se model odchyluje od úsudku experta, pochopit proč, přidat více dat pokrývajících daný případ, model přetrénovat a znovu měřit. Takto se výkon AI postupem času násobí.

Během stejného období se při týdenních kontrolách ukázalo ještě něco jiného. V několika vzorcích GrainODM označil příměsi, které laboratoř vyhodnotila s nulovým podílem:

[TABLE 3: AI detekovala – laboratoř hodnotila 0 %]

Typ příměsi	Detekce GrainODM	Výsledek laboratoře
Porostlá zrna	1.05%	0.00%
Porostlá zrna	0.95%	0.00%
Poškozená zrna	0.90%	0.00%
Ječmen	0.08%	0.00%

AI se nemýlila. Detekovala na hranici lidského vnímání – jednotlivá zrna, která lze snadno přehlédnout během dlouhé směny ve vzorku, který se jinak jeví jako čistý. Konzistence napříč každým zrnem v každém vzorku je něco, v čem jsou stroje z dlouhodobého hlediska jednoduše lepší než lidé.

Výsledky smyčky zpětné vazby

Během testovacího týdne od 29. září do 3. října bylo zlepšení jasně měřitelné:

Tritikale: maximální odchylka klesla z 13,89 % na 0,25 % – snížení o 98 %
Drobná zrna: z 9,37 % na 1,70 % – snížení o 82 %
Ztmavlá zrna: z 21,43 % na 6,96 % – snížení o 68 %

Každé zlepšení vzešlo ze stejného postupu: cílenější data, přesnější anotace a jasnější definice hranic pro klasifikaci. Model se nezlepšil obecně – zlepšil se v konkrétních problematických případech, protože jsme mu předložili více příkladů právě těchto případů.

Takto vypadá vývoj AI v praxi.

Fáze 2: Závěrečný test

Dne 21. ledna 2026, po čtyřech měsících souběžného testování, jsme provedli formální validační test.

Pět profesionálních laborantů nezávisle analyzovalo 16 vzorků pšenice. GrainODM analyzoval ty samé vzorky. Nikdo neznal výsledky ostatních až do samého konce. Každý vzorek byl hodnocen v rámci 18 kategorií příměsí a nečistot, včetně celkového zatřídění do jakostní třídy.

Byl to rozhodující okamžik. Pokud systém testem projde, nasadíme ho do ostrého provozu. Pokud ne, vracíme se zpět na začátek.

Výsledky

[TABLE 5: Hlavní výsledky validace]

Metrika	Výsledek
Shoda AI s alespoň 1 laborantem	96,2 %
Shoda AI se 3 z 5 laborantů	95 %
Průměrná shoda AI se všemi laboranty	93,5 %
Shoda AI se všemi 5 laboranty zároveň	85 %

Dvě kategorie příměsí dosáhly 100% shody mezi AI a všemi laboranty (plevy a porostlá zrna), u jiných – např. semena cizích plodin a poškozená zrna – zůstává prostor pro zlepšení.

Co tato čísla ve skutečnosti znamenají

Zde je kontext, který dává těmto výsledkům váhu.

Když pět laborantů hodnotilo stejné vzorky nezávisle na sobě, jejich vzájemná průměrná shoda byla 95,2 %. Jsou to experti, ale jsou to lidé – subjektivní posouzení jemných vizuálních rozdílů znamená, že se jejich hodnocení ne vždy stoprocentně shoduje.

GrainODM dosáhl shody 93,5 %.

Tato hodnota spadá do rozmezí přirozené neshody mezi lidskými experty. Nejde o to, že by se této hodnotě blížila zespodu – ona leží přímo v ní. Výkon AI je na úrovni vyškoleného laboranta. Přidání systému GrainODM do procesu hodnocení je statisticky srovnatelné s přidáním šestého experta do týmu.

Pro lepší představu: když pět laborantů hodnotilo stejných 16 vzorků za shodných podmínek a podle stejného klasifikačního předpisu, nedošli k jednomyslnému závěrečnému zařazení do jakostní třídy u 6 z 16 vzorků. Ve 2 případech šlo skutečně o poměr 3 : 2 – což znamená, že stejná partie, hodnocená jinou skupinou laborantů v jiný den, by mohla dostat jinou třídu.

Klasifikace na úrovni jakostní třídy je ze své podstaty otázkou odborného úsudku, a to i u expertů, kteří pracují podle stejného souboru pravidel.

A právě zde hraje roli konzistence. GrainODM uplatňuje stejnou logiku na každý vzorek, pokaždé – žádné rozdíly mezi směnami, žádná kumulovaná únava, žádný subjektivní posun v čase. Při totožných vstupech produkuje totožné výstupy – něco, co žádný lidský hodnotitel nedokáže ve velkém měřítku zaručit.

Rozhodnutí: schváleno pro ostrý provoz

Pilotní projekt splnil validační kritéria. Výsledky ukázaly, že AI může pracovat na úrovni experta v reálných podmínkách příjmu.

Skutečné partie obilí. Skutečné finanční zatřídění. Výstupy systému jsou přímým podkladem pro rozhodnutí o jakostní třídě obilí – od třídy 1 po 4 – která určují cenu, způsob skladování a další zpracování. Tohle není žádné testovací prostředí. Tady jde o reálné peníze.

Co to znamená pro kontrolu jakosti obilí

Hodnocení jakosti obilí vždy vyžadovalo kvalifikované pracovníky. Na tom se nic nemění.

Mění se ale rozložení jejich práce. Systém, který pracuje na úrovni experta – konzistentně napříč tisíci vzorky, bez únavy a s citlivostí na hranici lidského vnímání – mění to, jak experti tráví svůj čas. Rutinní hodnocení se automatizuje. Okrajové případy, nejednoznačné partie, analýza trendů u dodavatelů – to vše zůstává na lidech, kteří jsou vyškoleni, aby o těchto věcech přemýšleli.

Otázka nikdy nezněla, zda AI může nahradit laboranty. Otázka zněla: může AI pracovat natolik spolehlivě, aby se stala jejich partnerem?

Po 4 měsících, více než 600 testech a formálním testu proti pěti nezávislým expertům zní odpověď ano.

Často Kladené Otázky

U 16 vzorků pšenice a 18 kategorií příměsí dosáhla AI průměrné shody 93,5 % s pěti nezávislými laboranty. Shoda mezi lidskými laboranty byla 95,2 %, AI tedy zůstala v přirozeném rozptylu odborných posudků.

Všechny vzorky pocházely z reálných dodávek pšenice do obchodního závodu. AI a laboratorní tým hodnotily stejné šarže paralelně po zhruba čtyři měsíce, včetně stovek rutinních vstupních zkoušek, nikoli ručně vybrané testovací sady.

Nejobtížnější kategorie byly ztmavlá zrna, tritikale a malá nebo seschlá zrna plus fuzarióza. Cílené přeškolení výrazně snížilo chyby u prvních tří; zlepšení klasifikace fuzariózy stále závisí na shromáždění většího množství kvalitně označených dat.

Čísla v této případové studii platí pro pšenici a standardy hodnocení tohoto provozu. Proces validace – spuštění AI paralelně, srovnání s více odborníky a iterace nad nejtěžšími případy – lze však opakovat pro jiné plodiny, provozy a systémy jakosti.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

AI vs. 5 laborantů: Co jsme zjistili po 4 měsících a více než 600 testech pšenice

Často Kladené Otázky

Jak přesně se AI shodovala s laboranty?

Jaké vzorky se v pilotu používaly?

Kde měla AI největší potíže?

Lze tyto výsledky zobecnit na jiné plodiny nebo provozy?

The New Standard in Grain Purity Analysis