AI kontra 5 laborantów: nasze wnioski po 4 miesiącach i ponad 600 badaniach pszenicy

Key Takeaways

System AI osiągnął 93,5% zgodności z pięcioma niezależnymi laborantami – w naturalnym zakresie rozbieżności ekspertów.
Błędy w ziarnach sczerniałych, pszenżycie i ziarnach drobnych gwałtownie spadły po doszkoleniu modelu na najtrudniejszych przypadkach.
Pilotaż używał rzeczywistych próbek przyjęciowych przez cztery miesiące, nie demonstracji – wyniki odzwierciedlają codzienne warunki oceny.
AI nie zastąpiło laborantów; zmieniło rozkład ich czasu – rutynowa ocena zautomatyzowana, przypadki graniczne trafiają do ekspertów.

Po 4 miesiącach i ponad 600 badaniach pozostało jedno, kluczowe pytanie: postawiliśmy pięciu profesjonalnych laborantów i system AI przed tymi samymi próbkami pszenicy. Czy ich oceny będą zgodne?

To był warunek zaliczenia testu, który uzgodniliśmy na początku projektu pilotażowego. Bez łagodniejszych kryteriów oceny. Bez uśredniania wyników w idealnych warunkach. Pięciu niezależnych ekspertów, jeden system AI, jedna sesja — a wynik miał zadecydować, czy GrainODM zostanie wdrożony do produkcji.

Niniejsze studium przypadku opisuje, jak do tego doszliśmy.

Dlaczego ocena jakości ziarna jest trudniejsza, niż się wydaje

Pszenica pszenicy nierówna. Gdy partia trafia do elewatora, przeszkolony laborant ocenia ją pod kątem dziesiątek parametrów: białko i wilgotność z przyrządów oraz długa lista fizycznych zanieczyszczeń, które wciąż ocenia ludzkie oko.

W tym pilotażu śledziliśmy 18 odrębnych kategorii zanieczyszczeń, w tym:

ziarna uszkodzone przez fuzariozę
jęczmień, owies, żyto i pszenżyto
ziarna połamane i sczerniałe
ziarna uszkodzone przez szkodniki, poślad i porośnięte
zanieczyszczenia organiczne, nasiona obce, przetacznik (Galium), plewy oraz łączne zanieczyszczenia ziarnowe/nieużyteczne

Zmiana w dowolnej kategorii — nawet o ułamki procenta — może zdeklasować partię z klasy 1 do klasy 4, co ma bezpośrednie konsekwencje finansowe. Więcej o tym, jak regulacje traktują te limity, w naszym przewodniku standardy zanieczyszczeń ziarna.

Jak w tradycyjnych laboratoriach wykrywa się pojedyncze wady, np. ziarna porośnięte – opisujemy w studium wykrywanie porastania pszenicy.

Ocena jest również z natury subiektywna. Dwóch doświadczonych laborantów, patrząc na tę samą partię sczerniałych ziaren, nie zawsze określi ich zawartość na tym samym poziomie. To nie świadczy o braku kompetencji. Taka jest natura klasyfikacji wizualnej poszczególnych ziaren w rzeczywistych warunkach pracy.

Właśnie dlatego zdecydowaliśmy się nie opierać na ocenie jednego laboranta. Pięciu niezależnych ekspertów pozwoliło nam określić naturalny zakres rozbieżności w ocenach, a tym samym dało wiarygodny punkt odniesienia dla naszego systemu.

Faza 1: Start pilotażu i pierwsze wyzwania

Projekt pilotażowy uruchomiliśmy w sierpniu 2025 we współpracy z dużym holdingiem rolnym. GrainODM działał równolegle z pracą laboratorium klienta, analizując te same, rzeczywiste partie ziarna przyjmowane do elewatora. Co tydzień zespół wspólnie przeglądał wyniki i wykorzystywał je do dalszego trenowania modelu.

Po czterech miesiącach zebraliśmy dane z ponad 600 indywidualnych badań.

Pierwsze tygodnie przyniosły najwięcej wniosków. Trzy kategorie zanieczyszczeń okazały się największym wyzwaniem:

Ziarna sczerniałe osiągnęły maksymalną rozbieżność 21,43% w pierwszym tygodniu. Główna przyczyna: zmienne oświetlenie podczas rejestracji obrazu w połączeniu z nieodłączną subiektywnością tego, co kwalifikuje się jako ziarno „sczerniałe” — ocena, która nawet w przypadku doświadczonych laborantów różniła się w zależności od odmiany pszenicy.

Pszenżyto wykazało maksymalną rozbieżność 13,89%. Pszenżyto — mieszaniec żyta i pszenicy — ma na tyle cech morfologicznych wspólnych z pszenicą, że model, bez wystarczającej liczby przykładów, miał problemy z jego konsekwentnym odróżnianiem.

Ziarna drobne / poślad osiągnęły 9,37%. Problem polegał na niezgodności między tym, jak model definiował ziarno „drobne” (wizualnie), a jak definiowało je laboratorium (na podstawie kalibracji sitowej).

To nie były przypadkowe błędy. Każdy z nich miał jasno zdiagnozowaną przyczynę, a co za tym idzie – możliwe do wdrożenia rozwiązanie.

Pętla informacji zwrotnej: od danych do doskonalenia modelu

To jest ten etap rozwoju AI, którego znaczenie łatwo zbagatelizować. Model nie był statycznym systemem, który po prostu zainstalowaliśmy i pozostawiliśmy samemu sobie. Co tydzień analizowaliśmy wyniki, identyfikowaliśmy źródła błędów i aktualizowaliśmy zbiory danych treningowych. Więcej próbek, precyzyjniejsze etykietowanie, szczegółowe reguły dla przypadków granicznych.

Kamienie milowe aktualizacji modelu podczas pilotażu:

Kiedy	Aktualizacja
Pierwszy tydzień	Usunięcie z bazy danych ziaren lekko sczerniałych; dodanie większej liczby przykładów zdrowych odmian pszenicy
Drugi tydzień	Wdrożenie progu pewności dla detekcji żyta – odrzucanie niepewnych klasyfikacji zamiast ich wymuszania
Piąty tydzień	Wdrożenie nowego modelu: poprawiona obsługa pszenżyta i klasyfikacja jaśniejszych ziaren
Szósty tydzień	Aktualizacja dot. fuzariozy: dodanie przykładów fuzariozy różowej i białej; doprecyzowanie etykiet dla próbek z wyraźnymi objawami
Siódmy tydzień	Ziarna drobne: wykluczenie ziaren >2 mm z kategorii pośladu w celu dostosowania do laboratoryjnej normy sitowej

Schemat działania jest prosty: identyfikujemy, gdzie ocena modelu odbiega od oceny eksperta, analizujemy przyczynę, dodajemy więcej danych obejmujących dany przypadek, ponownie trenujemy model i weryfikujemy wyniki. Tak właśnie z czasem rośnie skuteczność AI.

W tym samym czasie, podczas cotygodniowych analiz, zauważyliśmy coś jeszcze. W kilku próbkach GrainODM wykrył zanieczyszczenia, które laboratorium oznaczyło jako niewystępujące (wynik 0,00%):

Typ zanieczyszczenia	Wykrycie GrainODM	Wynik laboratorium
Ziarna porośnięte	1,05%	0,00%
Ziarna porośnięte	0,95%	0,00%
Ziarna uszkodzone	0,90%	0,00%
Jęczmień	0,08%	0,00%

System AI się nie mylił. Wykrywał zanieczyszczenia na granicy ludzkiej percepcji — pojedyncze ziarna, które mogą zostać przeoczone pod koniec długiej zmiany, w partii, która na pierwszy rzut oka wygląda na czystą. W dłuższej perspektywie maszyny są po prostu lepsze od ludzi pod względem konsekwencji w ocenie każdego ziarna w każdej próbce.

Efekty pętli informacji zwrotnej

Pod koniec września poprawa była już wymierna:

Pszenżyto: spadek maksymalnej rozbieżności z 13,89% do 0,25% — redukcja o 98%
Ziarna drobne: spadek z 9,37% do 1,70% — redukcja o 82%
Ziarna sczerniałe: spadek z 21,43% do 6,96% — redukcja o 68%

Każda z tych poprawek była efektem tego samego mechanizmu: zastosowania bardziej precyzyjnych danych, lepszego etykietowania i jaśniejszego zdefiniowania granic klasyfikacji. Model nie stał się „mądrzejszy” w ogólnym sensie – stał się skuteczniejszy w ocenie konkretnych, trudnych przypadków, ponieważ dostarczyliśmy mu więcej przykładów do nauki.

Tak w praktyce wygląda doskonalenie systemów AI.

Faza 2: Test końcowy

21 stycznia 2026 roku, po czterech miesiącach testów równoległych, przeprowadziliśmy formalną walidację systemu.

Pięciu rzeczoznawców niezależnie oceniło 16 próbek pszenicy. GrainODM przeanalizował te same próbki. Nikt nie znał wyników pozostałych uczestników aż do zakończenia testu. Każdą próbkę oceniono pod kątem 18 kategorii zanieczyszczeń, kończąc na pełnej klasyfikacji jakościowej.

To był decydujący moment. Pozytywny wynik walidacji oznaczał wdrożenie systemu do produkcji. Porażka – powrót do prac rozwojowych.

Wyniki

Wskaźnik	Wynik
Zgodność AI z oceną co najmniej 1 laboranta	96,2%
Zgodność AI z oceną 3 z 5 laborantów	95%
Średnia zgodność AI z ocenami wszystkich laborantów	93,5%
Zgodność AI z ocenami wszystkich 5 laborantów jednocześnie	85%

Dwie kategorie zanieczyszczeń osiągnęły 100% zgodności między AI a wszystkimi laborantami (plewy i ziarna porośnięte), w innych – np. nasiona obce i ziarna uszkodzone – wciąż jest pole do poprawy.

Co tak naprawdę oznaczają te liczby

Kluczowy jest kontekst, który nadaje tym wynikom znaczenie.

Średnia wzajemna zgodność ocen pięciu niezależnie pracujących laborantów wyniosła 95,2%. Są ekspertami, ale pozostają ludźmi – subiektywna ocena subtelnych różnic wizualnych sprawia, że ich wyniki nie zawsze są identyczne.

Wynik GrainODM to 93,5%.

Wartość ta mieści się w naturalnym przedziale rozbieżności między ocenami ekspertów. System nie tylko zbliża się do tego poziomu – on już w nim funkcjonuje. System AI pracuje na poziomie wyszkolonego rzeczoznawcy. Statystycznie rzecz biorąc, włączenie GrainODM w proces oceny jakości jest równoznaczne z dodaniem do zespołu szóstego eksperta.

Aby jeszcze lepiej zobrazować ten kontekst: gdy tych samych 16 próbek pszenicy zostało ocenionych przez pięciu laborantów w identycznych warunkach i według tego samego regulaminu klasyfikacji, w przypadku 6 próbek z 16 nie udało się osiągnąć jednomyślnej decyzji co do końcowej klasy jakości. W 2 przypadkach rozkład głosów był faktycznie 3 do 2 – co oznacza, że ta sama partia, oceniona innego dnia przez inny zespół laborantów, mogłaby otrzymać inną klasę.

Klasyfikacja na poziomie klasy jakości jest więc z natury kwestią profesjonalnego osądu – nawet wtedy, gdy wszyscy posługują się tym samym zbiorem zasad.

W tym miejscu kluczowe staje się pojęcie spójności. GrainODM stosuje tę samą logikę do każdej próbki, za każdym razem – bez różnic między zmianami, bez narastającego zmęczenia, bez powolnego, subiektywnego „dryfu” ocen w czasie. Przy identycznych danych wejściowych system zwraca identyczne wyniki – czego żadna ludzka załoga nie jest w stanie zagwarantować w dużej skali.

Decyzja: wdrożenie do produkcji

Projekt pilotażowy pomyślnie przeszedł walidację. Wyniki potwierdziły, że AI może działać na poziomie eksperta w rzeczywistych warunkach przyjęcia.

Prawdziwe partie ziarna. Prawdziwe decyzje finansowe. Wyniki z systemu są bezpośrednią podstawą do decyzji o klasyfikacji jakościowej ziarna – od klasy 1 do 4 – co z kolei determinuje cenę, sposób przechowywania i dalsze przeznaczenie surowca. To nie jest już piaskownica. Tu gra toczy się o realne pieniądze.

Co to oznacza dla kontroli jakości ziarna

Ocena jakości ziarna zawsze wymagała wykwalifikowanych specjalistów. I to się nie zmieni.

Zmienia się natomiast rozkład obciążenia pracą. System, który działa na poziomie ludzkiego eksperta – jest konsekwentny przy analizie tysięcy próbek, nie męczy się i wykrywa zanieczyszczenia na granicy percepcji – zmienia sposób, w jaki specjaliści wykorzystują swój czas. Rutynowa klasyfikacja zostaje zautomatyzowana. Przypadki graniczne, niejednoznaczne partie, analiza trendów w dostawach – tym wciąż zajmują się ludzie, którzy są do tego przygotowani.

Nigdy nie zadawaliśmy sobie pytania, czy AI może zastąpić rzeczoznawców. Pytanie brzmiało: czy AI może działać na tyle niezawodnie, by stać się dla nich realnym wsparciem?

Po 4 miesiącach, ponad 600 badaniach i formalnej walidacji z udziałem pięciu niezależnych ekspertów, odpowiedź brzmi: tak.

Często Zadawane Pytania

W 16 próbkach pszenicy i 18 kategoriach zanieczyszczeń AI osiągnęło średnio 93,5% zgodności z pięcioma niezależnymi laborantami. Zgodność między ocenami laborantów wyniosła 95,2%, więc AI znalazło się w naturalnym rozrzucie ocen eksperckich.

Wszystkie próbki pochodziły z rzeczywistych dostaw pszenicy do obiektu handlowego. AI i zespół laboratoryjny oceniali te same partie równolegle przez około cztery miesiące, obejmując setki rutynowych badań przyjęciowych, a nie ręcznie dobrany zestaw testowy.

Najtrudniejsze kategorie to ziarna sczerniałe, pszenżyto i ziarna drobne lub poślad oraz fuzarioza. Ukierunkowane doszkalanie znacząco zmniejszyło błędy w pierwszych trzech; poprawa klasyfikacji fuzariozy wciąż zależy od zebrania większej ilości wysokiej jakości danych z etykietami.

Liczby z tej studium przypadku dotyczą pszenicy i standardów oceny tego obiektu. Sam proces walidacji – uruchomienie AI równolegle, porównanie z wieloma ekspertami i iteracja nad najtrudniejszymi przypadkami – można powtórzyć dla innych upraw, obiektów i systemów jakości.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

AI kontra 5 laborantów: nasze wnioski po 4 miesiącach i ponad 600 badaniach pszenicy

Key Takeaways

Często Zadawane Pytania

Jak dokładnie AI zgadzało się z laborantami?

Jakich próbek używano w pilotażu?

Gdzie AI radziło sobie najsłabiej?

Czy te wyniki da się przenieść na inne uprawy lub obiekty?

The New Standard in Grain Purity Analysis