Yksi tekoäly vastaan viisi laboranttia: Mitä selvisi 4 kuukauden ja yli 600 vehnätestin jälkeen

Neljän kuukauden ja yli 600 testin jälkeen jäljellä oli enää yksi kysymys: kun viisi ammattitaitoista viljalaboranttia ja tekoäly analysoivat täsmälleen samat vehnänäytteet, päätyvätkö ne samaan tulokseen?

Tämä oli validointiehto, josta sovimme pilotin alussa. Ei helpompia vertailukohtia. Ei tulosten keskiarvoistamista ihanneolosuhteissa. Viisi riippumatonta asiantuntijaa, yksi tekoälyjärjestelmä, yksi testikerta – ja tulos ratkaisisi, siirtyykö GrainODM tuotantokäyttöön.

Tässä tapaustutkimuksessa kuvataan, miten tähän päädyttiin.

Miksi viljan laadunluokittelu on vaikeampaa kuin miltä näyttää

Vehnä ei ole vain vehnää. Kun erä saapuu viljan vastaanottoon, koulutettu laborantti luokittelee sen kymmenien laatuparametrien perusteella. Tässä pilotissa seurasimme 18 eri epäpuhtausluokkaa, muun muassa:

punahomeen (Fusarium) vioittamia jyviä
ohraa, kauraa, ruista ja ruisvehnää
rikkoutuneita ja tummuneita jyviä
tuholaisten vioittamia, pieniä / surkastuneita sekä itäneitä jyviä
muita epäpuhtauksia, vieraslajien siemeniä, rasvapitoisuutta, akanoita sekä viljaperäisten ja roskaperäisten epäpuhtauksien kokonaismäärää

Muutos missä tahansa luokassa – jopa prosentin murto-osa – voi pudottaa erän laatuluokasta 1 luokkaan 4, millä on suorat taloudelliset seuraukset. Jos haluat nähdä, miten sääntelyviranomaiset käsittelevät näitä rajoja laajemmin, käsittelemme niitä oppaassamme viljan lisäaineiden standardit. Tarkempi kuva siitä, miten perinteisissä labroissa tunnistetaan yksittäisiä vikoja (kuten idättyneet jyvät), on tapaustutkimuksessamme vehnän idätystunnistus.

Luokittelu on myös väistämättä subjektiivista. Kaksi kokenutta laboranttia ei aina päädy täsmälleen samaan prosenttiosuuteen tarkastellessaan samaa erää tummia jyviä. Kyse ei ole ammattitaidon puutteesta, vaan visuaalisen luokittelun luonteesta jyvätasolla, todellisissa työolosuhteissa.

Juuri siksi päätimme, että vertailu yhteen laboranttiin ei riitä. Viisi riippumatonta asiantuntijaa antoi meille kuvan asiantuntija-arvioiden luonnollisesta hajonnasta – ja siten mielekkään vertailukohdan tekoälyn suorituskyvylle.

Vaihe 1: Pilotti käynnistyy – ja haastavimmat tapaukset nousevat esiin

Pilotti käynnistyi elokuussa 2025 suuren maatalousalan toimijan kanssa. GrainODM toimi rinnakkain asiakkaan olemassa olevan laboratorion toiminnan kanssa: samat saapuvat viljaerät analysoitiin samanaikaisesti. Tiimimme kävi tulokset viikoittain läpi yhdessä asiakkaan kanssa ja syötti havainnot takaisin mallin opetukseen.

Neljän kuukauden aikana testejä kertyi yhteensä yli 600 kappaletta.

Ensimmäiset viikot olivat opettavaisimpia. Kolme luokkaa osoittautui selvästi haastavimmiksi:

Tummien jyvien kohdalla poikkeama oli suurimmillaan 21,43 % ensimmäisellä viikolla. Perimmäisenä syynä oli kuvausolosuhteiden valaistuksen vaihtelu sekä subjektiivisuus siinä, mikä lasketaan “tummaksi” jyväksi – jopa laborantit arvioivat tämän eri tavoin vehnälajikkeesta riippuen.

Ruisvehnän kohdalla suurin virhe oli 13,89 %. Ruisvehnä (triticale) muistuttaa ulkoisesti niin paljon vehnää, että ilman riittävää määrää esimerkkejä mallin oli vaikea erottaa niitä johdonmukaisesti toisistaan.

Pienten / surkastuneiden jyvien osuus nousi 9,37 %:iin. Ongelma johtui eroavaisuudesta siinä, miten malli määritteli “pienen” jyvän (visuaalisesti) ja miten laboratorio sen teki (seulakoon perusteella).

Nämä eivät olleet satunnaisia virheitä. Jokaisella oli selkeä, tunnistettava syy – ja siten myös selkeä korjaustapa.

Palautesilmukka: datasta parempiin tuloksiin

Tämä on tekoälyn kehitystyön vaihe, jonka merkitystä on helppo aliarvioida. Malli ei ollut staattinen järjestelmä, joka asennetaan ja jätetään toimimaan itsekseen. Jokaisen viikon tulokset analysoitiin, perimmäiset syyt tunnistettiin ja opetusdataa päivitettiin. Lisää näytteitä. Tarkempaa luokittelua. Täsmäsääntöjä poikkeustapauksille.

Mallin päivitykset pilotin aikana:

Milloin	Päivitys
Ensimmäinen viikko	Poistettu lievästi tummentuneet jyvät opetusdatasta; lisätty esimerkkejä terveistä vehnälajikkeista
Toinen viikko	Otettu käyttöön varmuuskynnys rukiin tunnistukseen – epävarmat luokittelut hylätään sen sijaan, että malli pakotettaisiin arvaamaan
Viides viikko	Uusi malli otettu käyttöön: parannettu ruisvehnän ja vaaleiden jyvien luokittelua
Kuudes viikko	Punahome-päivitys: lisätty esimerkkejä vaaleanpunaisesta ja valkoisesta punahomeesta; tarkennettu luokittelua näytteissä, joissa oireet olivat selvät
Seitsemäs viikko	Pienet jyvät: poistettu yli 2 mm:n jyvät surkastuneiden luokasta vastaamaan laboratorion seulakokoon perustuvaa standardia

Toimintamalli on järjestelmällinen: tunnistetaan, missä malli poikkeaa asiantuntijan arviosta, ymmärretään miksi, lisätään dataa kyseisestä tapauksesta, opetetaan malli uudelleen ja mitataan tulokset. Näin tekoälyn suorituskyky paranee ja kehittyy ajan myötä.

Samaan aikaan viikoittaisissa katsauksissa alkoi näkyä jotain muutakin. Useissa näytteissä GrainODM havaitsi epäpuhtauksia, jotka laboratorio oli arvioinut nollaksi:

[TAULUKKO 3: Tekoälyn havainto vs. laboratorion nollatulos]

Epäpuhtauden tyyppi	GrainODM-havainto	Laboratoriotulos
Itäneet jyvät	1,05 %	0,00 %
Itäneet jyvät	0,95 %	0,00 %
Vioittuneet jyvät	0,90 %	0,00 %
Ohra	0,08 %	0,00 %

Tekoäly ei ollut väärässä. Se teki havaintoja inhimillisen havaintokyvyn rajoilla – yksittäisiä jyviä, jotka voivat helposti jäädä huomaamatta pitkän työvuoron aikana muuten puhtaalta näyttävässä erässä. Johdonmukaisuus jokaisen jyvän kohdalla jokaisessa näytteessä on ominaisuus, jossa koneet ovat pitkällä aikavälillä ihmistä parempia.

Palautesilmukan tulokset

Syys-lokakuun vaihteeseen (29. syyskuuta – 3. lokakuuta) mennessä parannus oli selvästi mitattavissa:

Ruisvehnä: suurimmasta 13,89 %:n poikkeamasta 0,25 %:iin – 98 %:n vähennys
Pienet jyvät: 9,37 %:sta 1,70 %:iin – 82 %:n vähennys
Tummat jyvät: 21,43 %:sta 6,96 %:iin – 68 %:n vähennys

Jokainen parannus saavutettiin samalla menetelmällä: kohdennetummalla datalla, tarkemmalla luokittelulla ja selkeämmillä määrityksillä luokittelun raja-arvoille. Malli ei tullut yleisesti älykkäämmäksi – siitä tuli tarkempi tunnistamaan juuri niitä haastavia tapauksia, joista sille näytettiin enemmän esimerkkejä.

Tällaista tekoälyn kehittäminen on käytännössä.

Vaihe 2: Lopputesti

21. tammikuuta 2026, neljän kuukauden rinnakkaistestauksen jälkeen, suoritimme virallisen validointitestin.

Viisi ammattitaitoista viljalaboranttia analysoi itsenäisesti 16 vehnänäytettä. GrainODM analysoi samat näytteet. Kukaan ei nähnyt muiden tuloksia ennen testin päättymistä. Jokaisesta näytteestä määritettiin 18 epäpuhtausluokkaa ja tehtiin täydellinen laadunmääritys.

Tämä oli ratkaisun hetki. Jos validointi läpäistäisiin, järjestelmä siirtyisi tuotantoon. Jos tulokset eivät olisi riittäviä, palaisimme suunnittelupöydän ääreen.

Tulokset

[TAULUKKO 5: Validoinnin päätulokset]

Mittari	Tulos
Tekoälyn tulos vastasi vähintään yhden laborantin tulosta	96,2 %
Tekoälyn tulos vastasi 3/5 laborantin tulosta	95 %
Tekoälyn ja laboranttien tulosten välinen vastaavuus keskimäärin	93,5 %
Tekoälyn tulos vastasi kaikkien 5 laborantin tulosta	85 %

Kaksi epäpuhtausluokkaa saavutti 100 % vastaavuuden tekoälyn ja kaikkien laboranttien välillä (akanat ja itäneet jyvät); muissa – kuten vieraslajien siemenet ja vioittuneet jyvät – on vielä kehitettävää.

Mitä luvut todella tarkoittavat

Tässä on tausta, joka tekee tuloksista merkittäviä.

Kun viisi laboranttia arvioi samat näytteet itsenäisesti, heidän arvioidensa keskinäinen vastaavuus oli 95,2 %. He ovat asiantuntijoita, mutta he ovat myös ihmisiä – subjektiivinen arviointi hienovaraisista visuaalisista eroista tarkoittaa, että he eivät aina päädy täsmälleen samaan lukuun.

GrainODM:n vastaava luku oli 93,5 %.

Tämä tulos asettuu asiantuntijoiden arvioiden luonnollisen hajonnan sisään. Ei lähelle, vaan sen sisään. Tekoäly suoriutuu siis koulutetun laborantin tasolla. GrainODM:n lisääminen arviointiprosessiin on tilastollisesti verrattavissa siihen, että tiimiin lisättäisiin kuudes asiantuntija.

Käytännön tasolla tämä tarkoittaa esimerkiksi sitä, että kun viisi laboranttia luokitteli samat 16 vehnänäytettä samoissa olosuhteissa ja saman luokittelusäännöstön mukaan, he eivät päätyneet yksimieliseen lopulliseen laatuluokkaan 6 näytteessä 16:sta. Kahdessa tapauksessa jakauma oli aidosti 3 vastaan 2 – eli sama erä olisi voinut saada eri laatuluokan, jos sitä olisi arvioinut eri laboranttiryhmä eri päivänä.

Viljaerän laatuluokan määritys on siis väistämättä harkintaa – jopa sellaisille asiantuntijoille, jotka toimivat saman sääntökirjan mukaan.

Tässä kohtaa johdonmukaisuus on ratkaiseva tekijä. GrainODM soveltaa samaa logiikkaa jokaiseen näytteeseen, joka kerta – ilman vuorojen välisiä eroja, ilman kertynyttä väsymystä, ilman subjektiivista “ajautumista” ajan myötä. Kun syöte on sama, myös tulos on sama. Tätä mikään inhimillinen arvioija ei voi suuressa mittakaavassa taata.

Päätös: hyväksytty tuotantokäyttöön

Pilotti läpäisi validointitestin. Validointitulokset osoittivat, että tekoäly kykenee toimimaan asiantuntijatasolla todellisissa vastaanotto-olosuhteissa.

Todellisia viljaeriä. Todellisia kaupallisia laatuluokituksia. Järjestelmän tuottamaa tietoa käytetään suoraan viljan laatuluokituspäätöksiin (luokat 1–4), jotka määrittävät hinnoittelun, varastoinnin ja jatkokäytön. Tämä ei ole enää harjoittelua, vaan panokset ovat todellisia.

Mitä tämä tarkoittaa viljan laadunvalvonnalle

Viljan laadun arviointi on aina vaatinut ammattitaitoisia ihmisiä, eikä se ole muuttumassa.

Sen sijaan työnjako muuttuu. Järjestelmä, joka toimii ihmisasiantuntijan tarkkuudella – johdonmukaisesti tuhansien näytteiden läpi, väsymättä ja tehden havaintoja ihmisen havaintokyvyn rajoilla – muuttaa sitä, mihin ihmisasiantuntijat käyttävät aikaansa. Rutiininomainen luokittelu automatisoituu. Poikkeustapaukset, tulkinnanvaraiset erät ja toimittajakohtaisten trendien analysointi jäävät asiantuntijoiden arvioitavaksi.

Kysymys ei koskaan ollut, voiko tekoäly korvata laborantteja. Kysymys oli: onko tekoäly riittävän luotettava toimiakseen heidän rinnallaan?

Neljä kuukautta, yli 600 testiä ja viittä riippumatonta asiantuntijaa vastaan tehty validointi osoittavat, että vastaus on kyllä.

Usein kysytyt kysymykset

16 vehnänäytteessä ja 18 lisäainekategoriassa tekoäly saavutti keskimäärin 93,5 % yhteensopivuuden viiden itsenäisen laborantin kanssa. Ihmislaboranttien keskinäinen yhteensopivuus oli 95,2 %, joten tekoäly pysyi asiantuntija-arvioiden luonnollisessa hajonnassa.

Kaikki näytteet olivat peräisin oikeista saapuvista vehnäeristä kaupallisessa laitoksessa. Tekoäly ja laboratorion tiimi arvioivat samoja eriä rinnakkain noin neljän kuukauden ajan, kattaen satoja rutiininomaisia vastaanottotestejä, eivät käsin valittua testisarjaa.

Vaikeimmat kategoriat olivat tummennetut jyvät, tritikale ja pienet tai rypistyneet jyvät sekä fusarium. Kohdennettu uudelleenkoulutus vähensi virheitä merkittävästi kolmessa ensimmäisessä; fusariumin luokittelun parantaminen riippuu edelleen lisää laadukkaasti merkittyjä dataa kerättäessä.

Tämän tapaustutkimuksen luvut koskevat vehnää ja tämän laitoksen luokitusstandardeja. Validointiprosessi – tekoälyn rinnakkaiskäyttö, vertailu useisiin asiantuntijoihin ja vaikeimpien tapausten iteratiivinen parantaminen – voidaan kuitenkin toistaa muille viljelykasveille, laitoksille ja laatuskemille.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

Yksi tekoäly vastaan viisi laboranttia: Mitä selvisi 4 kuukauden ja yli 600 vehnätestin jälkeen

Usein kysytyt kysymykset

Kuinka tarkasti tekoäly yhtyi laboranttien kanssa?

Mitä näytteitä pilotissa käytettiin?

Missä tekoäly kamppaili eniten?

Yleistyvätkö nämä tulokset muihin viljelykasveihin tai laitoksiin?

The New Standard in Grain Purity Analysis