Tehisintellekt viie laborandi vastu: mida näitasid 4 kuud ja üle 600 nisutesti

Pärast nelja kuud ja enam kui 600 analüüsi jäi õhku viimane küsimus: mis juhtub, kui anname viiele kogenud teraviljalaborandile ja tehisintellektile hinnata täpselt samu nisuproove? Kas nende tulemused ühtivad?

See oli valideerimiskatse, milles me pilootprojekti alguses kokku leppisime. Ei mingeid järeleandmisi. Ei mingit tulemuste keskmistamist ideaaltingimustes. Viis sõltumatut eksperti, üks AI-süsteem, üks hindamisvoor – ja tulemus pidi otsustama, kas GrainODM läheb tootmisse või mitte.

See juhtumiuuring kirjeldab, kuidas me selleni jõudsime.

Miks on teravilja kvaliteediklassi määramine keerulisem, kui esmapilgul paistab

Nisu pole lihtsalt nisu. Kui viljapartii elevaatorisse jõuab, hindab laborant seda kümnete kvaliteediparameetrite alusel. Selles pilootprojektis jälgisime 18 eri lisandikategooriat, muu hulgas:

fusarioosist kahjustunud teri (seenhaigus)
otra, kaera, rukist ja tritikalet (rukki–nisu hübriid)
katkiseid ja poolikuid ning tumenenud teri
kahjurkahjustusega, väikesi ja kõlujaid ning idanenud teri
muid lisandeid, umbrohu- ja võõrseemneid, rasvasisaldust, agnaid ning tera- ja prügilisandi kogusummat

Väikenegi muutus mõnes kategoorias – isegi protsendi murdosa piires – võib langetada partii kvaliteediklassi esimesest neljandasse, millel on otsene rahaline mõju. Kui soovite näha, kuidas regulaatorid neid piire laiemalt käsitlevad, käsitleme seda meie teravilja lisandite standardite juhendis. Täpsema ülevaate sellest, kuidas traditsioonilistes laborites tuvastatakse üksikuid vigu (nt idanenud teri), vaadake meie juhtumiuuringut nisu idanemise tuvastamine.

Hindamine on oma olemuselt subjektiivne. Kaks kogenud laboranti ei pruugi sama tumenenud teradega partiid analüüsides jõuda täpselt sama tulemuseni. See ei tähenda puudujääke nende erialateadmistes, vaid ongi terade visuaalse hindamise eripära reaalsetes töötingimustes.

Just seetõttu otsustasimegi mitte piirduda võrdlusega üheainsa laborandiga. Viis sõltumatut eksperti andsid meile hea ülevaate inimekspertide hinnangute loomulikust kõikumisest ja seega ka tugeva võrdlusbaasi, millega tehisintellekti tulemusi kõrvutada.

1. faas: pilootprojekti algus ja esimesed väljakutsed

Pilootprojekt käivitus augustis 2025 koostöös ühe suure põllumajanduskontserniga. GrainODM töötas paralleelselt kliendi laboriga, analüüsides samaaegselt samu saabuvaid viljapartiisid. Igal nädalal vaatasime tulemused ühiselt üle ja sisestasime oma järeldused mudeli edasiarendamiseks.

Nelja kuuga kogunes selliseid analüüse üle 600.

Kõige õpetlikumad olid esimesed nädalad. Ilmnes kolm kategooriat, mis osutusid tehisintellektile kõige keerulisemaks:

Tumenenud terad: maksimaalne lahknevus esimesel nädalal oli 21,43%. Põhjuseks oli pildistamisel varieeruv valgustus ning „tumenenud” tera subjektiivne määratlus – isegi laborandid andsid eri nisusortide puhul erinevaid hinnanguid.

Tritikale (rukkihübriid): maksimaalne viga 13,89%. Tritikale on nisuga välimuselt nii sarnane, et ilma piisava hulga näidisteta oli mudelil raskusi nende järjepideva eristamisega.

Väikesed ja kõlujad terad: lahknevus ulatus 9,37%-ni. Probleem seisnes erinevuses, kuidas mudel defineeris „väikest” tera (visuaalselt) ja kuidas labor seda tegi (sõela ava suuruse järgi).

Need polnud juhuslikud vead. Igal neist oli selgelt tuvastatav põhjus ja seega ka selge lahendus.

Tagasisidetsükkel: andmetest täpsemate tulemusteni

Seda osa tehisintellekti arendusest on kerge alahinnata. Mudel polnud staatiline süsteem, mis lihtsalt paigaldati ja jäeti tööle. Iga nädala tulemusi analüüsiti, põhjused tehti kindlaks ja õpiandmestikku täiendati. Rohkem näidiseid. Täpsem märgistus. Sihitud reeglid erijuhtudele.

Mudeli uuendamise olulisemad etapid pilootprojekti jooksul:

Kuna	Uuendus
Esimene nädal	Eemaldasime õpiandmestikust minimaalselt tumenenud terad; täiendasime kvaliteetse nisu näidiseid
Teine nädal	Rakendasime tritikale tuvastamisel usaldusläve: ebakindlad tulemused lükatakse tagasi, mitte ei üritata neid vägisi klassifitseerida
Viies nädal	Uus mudel: parem tritikale eristamine ja heledate terade klassifitseerimine
Kuues nädal	Fusarioosi uuendus: lisasime roosade ja valgete kahjustustega näidiseid; täpsustasime selgete sümptomitega juhtude märgistust
Seitsmes nädal	Väikesed terad: välistasime kõlujate terade kategooriast üle 2 mm terad, et tulemus vastaks sõelapõhisele laboristandardile

See on sihipärane protsess: tuvastada, kus mudeli hinnang eksperdi omast erineb, mõista selle põhjust, lisada andmestikku uusi asjakohaseid näiteid, mudelit uuesti treenida ja tulemusi taas mõõta. Just nii tehisintellekti võimekus ajas kasvabki.

Sama perioodi iganädalastel ülevaatustel ilmnes veel üks huvitav tähelepanek. Mitme proovi puhul tuvastas GrainODM lisandeid, mille sisalduseks oli labor märkinud nulli:

[TABLE 3: AI tuvastas — Labor hindas nulliks]

Lisanditüüp	GrainODM tulemus	Labori tulemus
Idanenud terad	1,05%	0,00%
Idanenud terad	0,95%	0,00%
Kahjustatud terad	0,90%	0,00%
Oder	0,08%	0,00%

Tehisintellekt ei eksinud. See tuvastas lisandeid inimsilma taju piiril – üksikuid teri, mis võivad pika tööpäeva jooksul muidu puhtana näivas proovis märkamata jääda. Järjepidevus iga tera kontrollimisel igas proovis on miski, milles masinad on pikas perspektiivis inimestest lihtsalt paremad.

Tagasisidetsükli tulemused

29. septembri ja 3. oktoobri vahelisel testimisnädalal oli edasiminek juba selgelt mõõdetav:

Tritikale (rukkihübriid): lahknevus vähenes 13,89%-lt 0,25%-le – langus 98%
Väikesed terad: lahknevus vähenes 9,37%-lt 1,70%-le – langus 82%
Tumenenud terad: lahknevus vähenes 21,43%-lt 6,96%-le – langus 68%

Iga edasiminek põhines samal lähenemisel: sihipärasemad andmed, täpsem märgistus ja selgemalt defineeritud klassifitseerimispiirid. Mudel ei muutunud targemaks üleüldiselt, vaid spetsiifiliste ja keeruliste juhtumite lahendamisel, sest talle näidati just nendest rohkem näiteid.

Just selline näebki tehisintellekti arendamine praktikas välja.

2. faas: lõplik test

21. jaanuaril 2026, pärast neli kuud kestnud paralleeltestimist, viisime läbi ametliku valideerimiskatse.

Viis kogenud teraviljalaboranti analüüsisid sõltumatult 16 nisuproovi. GrainODM analüüsis täpselt samu proove. Keegi ei näinud teiste tulemusi enne katse lõppu. Iga proov hinnati 18 lisandikategooria alusel ja määrati selle lõplik kvaliteediklass.

See oli otsustav hetk. Kui süsteem läbib valideerimise, läheb see tootmisse. Ebaõnnestumise korral oleksime pidanud naasma arendusetappi.

Tulemused

[TABLE 5: Valideerimise peamised tulemused]

Näitaja	Tulemus
AI tulemus ühtis vähemalt 1 laborandi tulemusega	96,2%
AI tulemus ühtis 3/5 laborandi tulemusega	95%
AI keskmine ühtivus kõigi laborantidega	93,5%
AI tulemus ühtis kõigi 5 laborandi tulemusega	85%

Kaks lisandikategooriat jõudsid 100% ühtivuseni AI ja kõigi laborantide vahel (agnad ja idanenud terad); teistes – nagu võõrseemned ja kahjustatud terad – on endiselt arenguruumi.

Mida need numbrid tegelikult tähendavad

Selgitame lahti, mis teeb need tulemused märkimisväärseks.

Kui viis laboranti hindasid samu proove üksteisest sõltumatult, oli nende tulemuste keskmine omavaheline ühtivus 95,2%. Nad on oma ala eksperdid, kuid siiski inimesed – subjektiivne hinnang peentele visuaalsetele nüanssidele tähendab, et nad ei jõua alati täpselt sama tulemuseni.

GrainODMi tulemus oli 93,5%.

See näitaja jääb inimekspertide hinnangute loomuliku kõikumise piiresse. Tehisintellekt ei jää ekspertidele alla, vaid sobitub nende tulemuste vahemikku. See tähendab, et AI töötab koolitatud laborandiga samal tasemel. Statistiliselt on GrainODMi lisamine hindamisprotsessi võrdväärne kuuenda eksperdi kaasamisega meeskonda.

Võrdluseks: kui viis laboranti hindasid samu 16 nisuproovi identsetes tingimustes ja sama klassifitseerimisjuhendi alusel, ei jõudnud nad lõpliku kvaliteediklassi osas üksmeelele 6 proovi puhul 16-st. Kahel juhul oli jaotus päriselt 3 laboranti ühe, 2 teise klassi kasuks – mis tähendab, et sama partii, mida hindaks mõni teine laborantide rühm mõnel teisel päeval, võiks saada teistsuguse lõpliku klassi.

Nisu kvaliteediklassi määramine on olemuselt hinnanguline otsus – isegi ekspertide jaoks, kes lähtuvad ühest ja samast reeglistikust.

Ja just siin muutub järjepidevus otsustavaks. GrainODM rakendab iga proovi puhul iga kord sama loogikat – vahetusevaheliste erinevuste, kuhjuva väsimuse või subjektiivse „triivimise“ mõjuta. Kui sisend on identne, on identne ka väljund. Ükski inimhindaja ei saa sellist käitumist suures mahus garanteerida.

Otsus: tootmisküps

Pilootprojekt läbis edukalt valideerimiskatse. Tulemused näitasid, et AI suudab töötada eksperdi tasemel reaalsetes vastuvõtu tingimustes.

Reaalsed viljapartiid. Reaalsed finantsotsused. Süsteemi tulemusi kasutatakse otse vilja kvaliteediklassi (1.–4. klass) määramisel, millest sõltub hind, ladustamine ja edasine kasutus. See pole enam katsekeskkond – mängus on reaalsed panused.

Mida see teravilja kvaliteedikontrolli jaoks tähendab

Teravilja kvaliteedi hindamine on alati nõudnud kogenud spetsialiste. See ei muutu.

Küll aga muutub tööülesannete jaotus. Süsteem, mis töötab inimeksperdi tasemel – olles järjepidev tuhandete proovide analüüsimisel, väsimatu ja tuvastades vigu inimsilma taju piiril – muudab seda, millele spetsialistid oma aega kulutavad. Rutiinne klassifitseerimine automatiseeritakse. Erijuhud, keerulised partiid ja tarnijatepõhine trendianalüüs jäävad aga endiselt inimeste pärusmaaks, kelle ülesanne ongi nendele keskenduda.

Küsimus pole kunagi olnud selles, kas tehisintellekt asendab laborante. Küsimus on olnud: kas tehisintellekt on piisavalt usaldusväärne, et nendega koos töötada?

Pärast nelja kuud, üle 600 analüüsi ja viie sõltumatu eksperdiga läbi viidud valideerimist on vastus jah.

Korduma Kippuvad Küsimused

16 nisuproovi ja 18 lisandikategooria puhul oli tehisintellekti keskmine ühtivus viie sõltumatu laborandiga 93,5%. Inimlaborantide omavaheline ühtivus oli 95,2%, seega jäi tehisintellekt ekspertide hinnangute loomulikku hajumisse.

Kõik proovid pärinesid reaalsetest sissetulevatest nisupartidest kaubandusettevõttes. Tehisintellekt ja labori meeskond hindasid samu partii paralleelselt umbes neli kuud, hõlmates sadu rutiinseid vastuvõtukatseid, mitte käsitsi valitud testkomplekti.

Raskemad kategooriad olid tumenenud terad, rukkihübriidid ja väikesed või kõverdunud terad ning fusarioos. Sihipärane ümbertreenimine vähendas vigu esimeses kolmes kategoorias märkimisväärselt; fusarioosi klassifikatsiooni parandamine sõltub endiselt rohkem kvaliteetselt märgitud andmete kogumisest.

Selle juhtumiuuringu numbrid kehtivad nisu ja selle rajatise hindamisstandardite kohta. Kuid valideerimisprotsessi – tehisintellekti paralleelne käivitamine, võrdlemine mitme eksperdiga ja kõige raskemate juhtumite iteratiivne täiustamine – saab korrata teiste kultuuride, rajatiste ja kvaliteediskeemide puhul.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

Tehisintellekt viie laborandi vastu: mida näitasid 4 kuud ja üle 600 nisutesti

Korduma Kippuvad Küsimused

Kui täpselt tehisintellekt laborantidega ühtis?

Milliseid proove pilootprojektis kasutati?

Kus tehisintellekt kõige rohkem vaeva nägi?

Kas neid tulemusi saab üldistada teistele kultuuridele või rajatistele?

The New Standard in Grain Purity Analysis