Viens AI pret pieciem laborantiem: mūsu secinājumi pēc 4 mēnešiem un 600+ kviešu testiem

Key Takeaways

AI sistēma sasniedza 93,5% saskaņu ar pieciem neatkarīgiem laborantiem – dabiskā ekspertu vērtējumu spreadā.
Agrīnās kļūdas (ietumšojušies graudi, tritikāle, mazi graudi) krasi samazinājās pēc modeļa pārmācības uz grūtākajiem gadījumiem.
Pilotā izmantoja reālus pieņemšanas paraugus četrus mēnešus, ne laboratorijas demo – rezultāti atspoguļo ikdienas vērtēšanas apstākļus.
AI neaizstāja laboratorijas darbiniekus; mainījās laika sadalījums – rutīnas vērtēšana automatizēta, robežgadījumi ekspertu pārskatīšanai.

Pēc 4 mēnešiem un vairāk nekā 600 testiem atlika atbildēt uz pēdējo, galveno jautājumu: vai 5 profesionālu graudu laborantu un AI vērtējumi vieniem un tiem pašiem kviešu paraugiem sakritīs?

Tas bija izšķirošais pārbaudījums, par kuru vienojāmies pilotprojekta sākumā. Nekādu atvieglojumu. Nekādas vidējošanas ideālos apstākļos. Pieci neatkarīgi eksperti, viena AI sistēma, viena testēšanas reize — un rezultāts izšķirs, vai GrainODM tiks ieviests ražošanā.

Šis gadījuma pētījums apraksta, kā mēs līdz tam nonācām.

Kāpēc graudu kvalitātes novērtēšana ir sarežģītāka, nekā šķiet

Kvieši nav tikai kvieši. Kad krava nonāk graudu pieņemšanas punktā, kvalificēts laborants to novērtē pēc desmitiem kvalitātes parametru: olbaltumvielu un mitruma – ar ierīcēm, un garu fizisko piemaisījumu sarakstu, ko joprojām novērtē ar aci.

Šajā pilotā mēs sekojām 18 piemaisījumu kategorijām, to skaitā:

fuzarioze bojāti graudi
mieži, auzas, rudzi un rudzu-kviešu hibrīdi
lūzuši un ietumšojušies graudi
kaitēkļu bojāti, savītuši un sadīguši graudi
gruži, nezāļu sēklas, lipsa, sēnalas un kopējie graudu/sārņu piemaisījumi

Izmaiņas jebkurā kategorijā — pat par procenta daļām — var pazemināt kravas klasi no 1. uz 4., kas tieši ietekmē tās cenu. Vairāk par to, kā regulatori traktē šīs normas – mūsu vadā graudu piemaisījumu standarti.

Kā tradicionālās laboratorijās atrod atsevišķus defektus, piemēram, sadīgušus graudus – skatīt gadījuma studijā kviešu dīgšanas noteikšana.

Turklāt tas pēc būtības ir subjektīvs process. Divi pieredzējuši laboranti, aplūkojot vienu un to pašu tumšo graudu paraugu, ne vienmēr noteiks vienādu procentuālo daudzumu. Tas neliecina par kompetences trūkumu. Tāda ir vizuālās klasifikācijas specifika, strādājot ar atsevišķiem graudiem reālos darba apstākļos.

Tieši tāpēc mēs neizvēlējāmies salīdzinājumam tikai viena laboranta vērtējumu. Pieci neatkarīgi eksperti mums sniedza dabisko viedokļu atšķirību diapazonu ekspertu vidū un pamatotu atskaites punktu salīdzinājumam.

1. fāze: Pilotprojekts sākas un atklājas sarežģītākie gadījumi

Pilotprojektu uzsākām 2025. gada augustā sadarbībā ar lielu lauksaimniecības holdingu. GrainODM darbojās paralēli klienta laboratorijas ikdienas darbam — vienlaikus analizējot tās pašas ienākošās graudu kravas. Katru nedēļu komanda kopīgi izvērtēja rezultātus un izmantoja secinājumus modeļa pilnveidošanai.

Četru mēnešu laikā tika veikti vairāk nekā 600 atsevišķi testi.

Pirmās nedēļas sniedza visvairāk atziņu. Trīs kategorijas izrādījās vissarežģītākās:

Tumšajiem graudiem 1. nedēļā maksimālā neatbilstība sasniedza 21,43%. Pamatcēlonis: atšķirīgs apgaismojums, uzņemot attēlus, kā arī subjektīvais vērtējums, kas īsti ir “tumšs” grauds. Šo lēmumu pat laboranti pieņēma atšķirīgi atkarībā no konkrētās kviešu šķirnes.

Rudzu-kviešu hibrīdu noteikšanā maksimālā kļūda bija 13,89%. Tritikāle — rudzu un kviešu krustojums — ir morfoloģiski tik līdzīga kviešiem, ka modelim, trūkstot pietiekami daudz piemēru, bija grūti tos stabili atšķirt.

Sīko / savītušo graudu kategorijā neatbilstība sasniedza 9,37%. Problēma bija atšķirība starp to, kā “sīku” graudu definēja modelis (vizuāli) un kā to darīja laboratorija (pēc sieta izmēra).

Tās nebija nejaušas kļūmes. Katrai bija skaidri nosakāms cēlonis, kas nozīmēja, ka katrai bija arī skaidrs risinājums.

Atgriezeniskās saites cilpa: no datiem uz uzlabojumiem

Šī ir tā AI izstrādes daļa, kuras nozīmi ir viegli par zemu novērtēt. Modelis nebija nemainīga sistēma, ko vienreiz uzstāda un aizmirst. Katru nedēļu mēs analizējām rezultātus, noteicām pamatcēloņus un atjauninājām apmācības datus. Vairāk paraugu. Precīzāka marķēšana. Specifiski noteikumi nestandarta gadījumiem.

Svarīgākie modeļa atjauninājumi pilotprojekta laikā:

Kada	Atjauninājums
Pirmā nedēļa	No datu kopas izņemti nedaudz tumšāki graudi; papildināti veselīgu kviešu šķirņu piemēri
Otrā nedēļa	Ieviests ticamības slieksnis rudzu atpazīšanai — apšaubāmi gadījumi tiek noraidīti, nevis klasificēti piespiedu kārtā
Piektā nedēļa	Ieviests jauns modelis: uzlabota rudzu-kviešu hibrīdu atpazīšana un gaišāku graudu klasifikācija
Sestā nedēļa	Fuzariozes atjauninājums: pievienoti sārtās un baltās fuzariozes piemēri; precizēta marķēšana gadījumiem ar skaidriem simptomiem
Septītā nedēļa	Sīkie graudi: no savītušo graudu kategorijas izslēgti graudi >2mm, lai definīcija atbilstu laboratorijas standartam, kas balstīts uz sieta izmēru

Mūsu pieeja bija sistemātiska: identificēt, kur modeļa vērtējums atšķiras no ekspertu vērtējuma, saprast, kāpēc tā notiek, pievienot vairāk datu, kas aptver šo gadījumu, pārapmācīt modeli un mērīt rezultātus no jauna. Tieši tā laika gaitā uzlabojas AI veiktspēja.

Šajā periodā iknedēļas pārskatos pamanījām vēl ko interesantu. Vairākos paraugos GrainODM uzrādīja piemaisījumus, kuriem laboratorija bija noteikusi 0 % saturu:

Piemaisījuma veids	GrainODM rezultāts	Laboratorijas rezultāts
Sadīguši graudi	1,05%	0,00%
Sadīguši graudi	0,95%	0,00%
Bojāti graudi	0,90%	0,00%
Mieži	0,08%	0,00%

AI nekļūdījās. Tas spēja pamanīt to, kas ir uz cilvēka uztveres robežas — atsevišķus graudus, kurus var palaist garām garas darba maiņas beigās paraugā, kas citādi izskatās tīrs. Spēja konsekventi pārbaudīt katru graudu katrā paraugā ir tas, kur tehnoloģijas ilgtermiņā pārspēj cilvēku.

Atgriezeniskās saites cilpas rezultāti

Vēlais septembris – uzlabojums bija acīmredzams:

Rudzu-kviešu hibrīdi: no 13,89% maksimālās neatbilstības līdz 0,25% — 98% samazinājums
Sīkie graudi: no 9,37% līdz 1,70% — 82% samazinājums
Tumšie graudi: no 21,43% līdz 6,96% — 68% samazinājums

Katrs uzlabojums tika panākts ar vienu un to pašu mehānismu: mērķtiecīgākiem datiem, labāku marķēšanu un skaidrāku klasifikācijas kritēriju definīciju. Modelis nekļuva gudrāks vispārīgi — tas kļuva precīzāks konkrētos, sarežģītos gadījumos, jo tika apmācīts ar lielāku skaitu šādu piemēru.

Tieši tā praksē notiek AI izstrāde.

2. fāze: Izšķirošais pārbaudījums

2026. gada 21. janvārī, pēc četru mēnešu ilgas paralēlās testēšanas, mēs veicām oficiālo validāciju.

Pieci profesionāli laboranti neatkarīgi cits no cita analizēja 16 kviešu paraugus. GrainODM analizēja tos pašus paraugus. Neviens nezināja pārējo rezultātus līdz pat pārbaudes beigām. Katrs paraugs tika novērtēts pēc 18 piemaisījumu kategorijām, nosakot pilnu kvalitātes klasi.

Šis bija izšķirošais brīdis. Ja validācija ir sekmīga, sistēmu ieviešam ražošanā. Ja ne, sākam visu no sākuma.

Rezultāti

Rādītājs	Rezultāts
AI vērtējums sakrita ar vismaz 1 laboranta vērtējumu	96,2%
AI vērtējums sakrita ar 3 no 5 laborantu vērtējumu	95%
AI vidējā saskaņa ar visiem laborantiem	93,5%
AI vērtējums sakrita ar visu 5 laborantu vērtējumu	85%

Divas piemaisījumu kategorijas sasniedza 100% saskaņu starp AI un visiem laborantiem (sēnalas un sadīguši graudi), citās – piemēram, nezāļu sēklas un bojāti graudi – joprojām ir iespējas uzlabot.

Ko šie skaitļi patiesībā nozīmē

Lai saprastu šo rezultātu nozīmi, aplūkosim kontekstu.

Kad pieci laboranti neatkarīgi novērtēja vienus un tos pašus paraugus, viņu vidējā savstarpējā saskaņa bija 95,2%. Viņi ir eksperti, taču joprojām tikai cilvēki — subjektīvs vērtējums par smalkām vizuālām atšķirībām nozīmē, ka viņu rezultāti ne vienmēr pilnībā sakrīt.

GrainODM rezultāts bija 93,5%.

Šis rādītājs iekļaujas dabiskajā viedokļu atšķirību diapazonā ekspertu vidū. Tas nav tuvu šim diapazonam — tas ir tā iekšienē. AI veiktspēja atbilst kvalificēta laboranta līmenim. GrainODM pievienošana novērtēšanas procesam statistiski ir līdzvērtīga sestā eksperta pievienošanai komandai.

Lai to ieliktu vēl skaidrākā kontekstā: kad pieci laboranti vērtēja tās pašas 16 kviešu paraugus identiskos apstākļos un pēc viena un tā paša klasifikācijas nolikuma, viņi nenonāca līdz vienprātīgam gala kvalitātes klases lēmumam 6 paraugos no 16. Divos gadījumos sadalījums patiešām bija 3 pret 2 — tas nozīmē, ka vienu un to pašu kravu, ja to citā dienā vērtētu cita laborantu grupa, varētu klasificēt atšķirīgi.

Graudu iedalījums kvalitātes klasēs pēc būtības ir ekspertu sprieduma jautājums, pat tad, ja visi strādā pēc viena un tā paša noteikumu kopuma.

Tieši tāpēc konsekvence kļūst izšķiroša. GrainODM katru paraugu analizē, izmantojot vienu un to pašu loģiku – katru reizi, bez maiņu atšķirībām, bez uzkrāta noguruma, bez lēnas, subjektīvas „nobīdes” laika gaitā. Pie vienādiem ievades datiem sistēma sniedz vienādu rezultātu – kaut ko tādu neviena cilvēka komanda nevar droši garantēt lielā apjomā.

Lēmums: apstiprināts ieviešanai

Pilotprojekts sekmīgi izturēja validāciju. Validācijas rezultāti parādīja, ka AI var darboties eksperta līmenī reālos pieņemšanas apstākļos.

Reālas graudu kravas. Reāla ietekme uz cenu. Sistēmas rezultāti tiek tieši izmantoti, pieņemot lēmumus par graudu kvalitātes klasi (no 1. līdz 4.), kas savukārt nosaka cenu, uzglabāšanas nosacījumus un tālāko pielietojumu. Šī nav testa vide. Likmes ir reālas.

Ko tas nozīmē graudu kvalitātes kontrolei

Graudu kvalitātes novērtēšanai vienmēr ir bijuši nepieciešami kvalificēti speciālisti. Tas nemainīsies.

Taču mainās darba pienākumu sadalījums. Sistēma, kas darbojas eksperta līmenī — konsekventi analizējot tūkstošiem paraugu, nenogurstoši un pamanot detaļas, kas ir uz cilvēka uztveres robežas, — maina to, kam speciālisti velta savu laiku. Rutīnas klasifikācija kļūst automatizēta. Nestandarta gadījumi, neskaidras kravas, piegādātāju tendenču analīze — tas paliek to speciālistu ziņā, kuru uzdevums ir par to domāt.

Jautājums nekad nav bijis, vai AI var aizstāt laborantus. Jautājums bija: vai AI var darboties pietiekami uzticami, lai kļūtu par viņu palīgu?

Pēc 4 mēnešiem, vairāk nekā 600 testiem un oficiālas validācijas, salīdzinot rezultātus ar pieciem neatkarīgiem ekspertiem, atbilde ir jā.

Biežāk Uzdotie Jautājumi

16 kviešu paraugos un 18 piemaisījumu kategorijās AI vidēji saskanēja ar pieciem neatkarīgiem laborantiem 93,5 %. Cilvēku laborantu savstarpējā saskaņa bija 95,2 %, tāpēc AI iekļuva ekspertu vērtējumu dabiskajā spreadā.

Visi paraugi nāca no reāliem iebraucēju kviešu kravām komerciālā objektā. AI un laboratorijas komanda vērtēja tās pašas partijas paralēli aptuveni četrus mēnešus, aptverot simtiem rutīnas pārbaudes, nevis izvēlētu testu kopu.

Grūtākās kategorijas bija ietumšojušies graudi, tritikāle un mazi vai saraukušies graudi, kā arī fuzarioze. Mērķtiecīga pārmācība ievērojami samazināja kļūdas pirmajās trīs; fuzariozes klasifikācijas uzlabošana joprojām ir atkarīga no vairāk augstas kvalitātes marķētu datu.

Šajā gadījuma pētījumā skaitļi attiecas uz kviešiem un šī objekta vērtēšanas standartiem. Tomēr validācijas process – palaist AI paralēli, salīdzināt ar vairākiem ekspertiem un iterēt grūtākos gadījumus – var atkārtot citām kultūrām, objektiem un kvalitātes shēmām.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

Viens AI pret pieciem laborantiem: mūsu secinājumi pēc 4 mēnešiem un 600+ kviešu testiem

Key Takeaways

Biežāk Uzdotie Jautājumi

Cik precīzi AI saskanēja ar laborantiem?

Kādi paraugi tika izmantoti pilotprojektā?

Kur AI cīnījās visvairāk?

Vai šos rezultātus var vispārināt uz citām kultūrām vai objektiem?

The New Standard in Grain Purity Analysis