ШІ проти 5 лаборантів: наші висновки після 4 місяців і понад 600 аналізів пшениці

Після 4 місяців і понад 600 аналізів постало ключове питання: чи збігатимуться висновки п’яти професійних лаборантів та нашої системи ШІ, якщо вони проаналізують абсолютно однакові зразки пшениці?

Це був ключовий критерій валідації, який ми погодили на старті пілотного проєкту. Жодних компромісних критеріїв. Жодного усереднення результатів за ідеальних умов. П’ять незалежних експертів, одна система ШІ, одна сесія — і результат мав вирішити, чи переходить GrainODM у промислову експлуатацію.

У цьому кейсі описано, як ми до цього дійшли.

Чому оцінка якості зерна складніша, ніж здається

Не вся пшениця однакова. Коли партія надходить на елеватор, кваліфікований лаборант оцінює її за десятками параметрів якості. У цьому пілотному проєкті ми відстежували 18 окремих категорій домішок, зокрема:

зерна, уражені фузаріозом (грибкова хвороба)
ячмінь, овес, жито та тритикале
биті / колоті й потемнілі зерна
зерна, пошкоджені шкідниками, дрібні / щуплі та пророслі зерна
інші домішки, насіння бур’янів, вміст ліпідів, плівки (лузга), а також сумарна зернова й сміттєва домішка

Відхилення в будь-якій категорії — навіть на частки відсотка — може перевести партію з 1-го класу до 4-го, що має прямі фінансові наслідки. Як регулятори трактують ці границі в ширшому контексті, описано в нашому посібнику стандарти домішок у зерні. Детальніше про те, як у традиційних лабораторіях визначають окремі дефекти (наприклад, проросле зерно), дивіться у нашому кейсі виявлення проростання пшениці.

Крім того, така оцінка неминуче суб’єктивна. Два досвідчені лаборанти, аналізуючи ту саму партію потемнілих зерен, не завжди визначають однаковий відсоток. Це не ознака браку досвіду. Це природа візуальної класифікації окремих зерен у реальних умовах роботи.

Саме тому ми вирішили не обмежуватися порівнянням з одним лаборантом. П’ять незалежних експертів дали нам природний діапазон розбіжностей у людських оцінках — і об’єктивний критерій для порівняння.

Етап 1: Початок пілотного проєкту та виявлення проблемних категорій

Пілотний проєкт стартував у серпні 2025 року у співпраці з великим агрохолдингом. GrainODM працював паралельно з лабораторією клієнта, аналізуючи ті самі партії зерна, що надходили на підприємство. Щотижня наша команда спільно розглядала результати та використовувала отримані дані для донавчання моделі.

За чотири місяці ми провели понад 600 окремих аналізів.

Найбільше інформації дали перші тижні роботи. Найскладнішими для класифікації виявилися три категорії:

Потемнілі зерна: максимальна розбіжність на 1-му тижні сягнула 21,43%. Причина: коливання освітлення під час сканування зразків у поєднанні із суб’єктивністю визначення «потемнілого» зерна — критерію, який навіть лаборанти оцінювали по-різному залежно від сорту пшениці.

Тритикале: максимальна розбіжність становила 13,89%. Тритикале — гібрид жита та пшениці — має багато спільних морфологічних ознак із пшеницею, тому без достатньої кількості прикладів модель не могла стабільно їх розрізняти.

Дрібні / щуплі зерна: розбіжність сягнула 9,37%. Проблема полягала в розбіжності між тим, як модель визначала «дрібне» зерно (візуально), і тим, як це робила лабораторія (за проходом через сито).

Це були не випадкові збої. Кожен мав чітку, діагностовану причину, а отже — і чіткий шлях до вирішення.

Цикл зворотного зв’язку: від даних до вдосконалення

Це той аспект розробки ШІ, який легко недооцінити. Модель — це не статична система, яку можна просто встановити й забути. Ми щотижня аналізували результати, виявляли першопричини розбіжностей та оновлювали набори навчальних даних. Більше зразків. Точніша розмітка. Спеціальні правила для нетипових випадків.

Ключові оновлення моделі під час пілотного проєкту:

Коли	Оновлення
Перший тиждень	З навчального набору даних вилучено зразки з ледь помітним потемнінням; додано більше прикладів якісної пшениці різних сортів
Другий тиждень	Впроваджено поріг упевненості для виявлення жита: класифікації з низькою ймовірністю відхиляються, а не приймаються примусово
П’ятий тиждень	Розгорнуто нову версію моделі: покращено розпізнавання тритикале та класифікацію світлих зерен
Шостий тиждень	Оновлення щодо фузаріозу: додано зразки з рожевим та білим нальотом; уточнено розмітку для випадків з явними симптомами
Сьомий тиждень	Дрібні зерна: зерна >2 мм виключено з категорії щуплих, щоб відповідати лабораторному стандарту (прохід через сито)

Алгоритм дій був чітким: виявити, де оцінка моделі відрізняється від оцінки експерта, зрозуміти причину, додати більше даних для цього випадку, перенавчити модель і провести вимірювання знову. Саме так з часом зростає ефективність ШІ.

Водночас під час щотижневих звітів ми помітили ще одну тенденцію. У кількох зразках GrainODM фіксував домішки, яким лабораторія дала нульову оцінку:

[ТАБЛИЦЯ 3: ШІ виявив — Лабораторія оцінила як 0,00%]

Тип домішки	Результат GrainODM	Результат лабораторії
Пророслі зерна	1,05%	0,00%
Пророслі зерна	0,95%	0,00%
Пошкоджені зерна	0,90%	0,00%
Ячмінь	0,08%	0,00%

ШІ не помилявся. Він фіксував домішки, що перебувають на межі людського сприйняття — окремі зернини, які можна пропустити наприкінці довгої робочої зміни у партії, яка на перший погляд здається чистою. Стабільність аналізу кожної зернини в кожному зразку — це те, в чому машини об’єктивно перевершують людей.

Результати циклу вдосконалень

Вже на тижні тестування 29 вересня – 3 жовтня ми зафіксували значне покращення:

Тритикале: максимальна розбіжність зменшилася з 13,89% до 0,25% — на 98%
Дрібні / щуплі зерна: з 9,37% до 1,70% — на 82%
Потемнілі зерна: з 21,43% до 6,96% — на 68%

Кожне покращення було досягнуто за допомогою того самого механізму: більш релевантні дані, точніша розмітка та чіткіші критерії класифікації. Модель не стала «розумнішою» в загальному розумінні — вона навчилася краще розпізнавати конкретні складні випадки, оскільки ми показали їй більше прикладів саме таких випадків.

Саме так виглядає розробка ШІ на практиці.

Етап 2: Фінальне випробування

21 січня 2026 року, після чотирьох місяців паралельного тестування, ми провели офіційну фінальну валідацію.

П’ять професійних лаборантів незалежно проаналізували 16 зразків пшениці. GrainODM проаналізував ті самі зразки. Ніхто не бачив результатів колег до самого кінця. Кожен зразок оцінювався за 18 категоріями домішок із визначенням класу якості.

Це був вирішальний момент. Успішна валідація означала запуск системи в промислову експлуатацію. Невдача — повернення до етапу розробки.

Результати

[ТАБЛИЦЯ 5: Основні результати валідації]

Метрика	Результат
Результати ШІ збіглися з оцінкою щонайменше 1 лаборанта	96,2%
Результати ШІ збіглися з оцінкою 3 із 5 лаборантів	95%
Середня збіжність результатів ШІ з усіма лаборантами	93,5%
Результати ШІ повністю збіглися з оцінками всіх 5 лаборантів	85%

Дві категорії домішок досягли 100% збіжності між ШІ та усіма лаборантами (плівки та пророслі зерна); по інших — наприклад насіння бур’янів і пошкоджені зерна — ще є простір для покращення.

Що насправді означають ці цифри

Щоб зрозуміти значущість цих результатів, розгляньмо контекст.

Коли п’ять лаборантів незалежно оцінювали ті самі зразки, середня збіжність їхніх результатів між собою становила 95,2%. Вони — експерти, але вони люди. Суб’єктивна оцінка ледь помітних візуальних відмінностей означає, що вони не завжди дають ідентичну оцінку.

GrainODM показав 93,5%.

Ця цифра вписується в природний діапазон розбіжностей між експертами. Система не просто наближається до людського рівня — вона працює в його межах. ШІ працює на рівні кваліфікованого лаборанта. Додавання GrainODM до процесу оцінки статистично еквівалентне залученню шостого експерта до команди.

Щоб повністю усвідомити вагу цих результатів, варто подивитися на те, як поводяться самі люди. Коли ті ж п’ять лаборантів оцінювали однакові 16 зразків пшениці в ідентичних умовах і за одним і тим самим класифікаційним регламентом, вони не дійшли одностайного вердикту щодо кінцевого класу якості для 6 з 16 зразків. У 2 випадках розподіл голосів був буквально 3 проти 2 — тобто та сама партія, оцінена іншою групою лаборантів в інший день, могла б отримати інший клас.

Класифікація на рівні якісного класу за своєю суттю завжди залишається питанням професійного судження — навіть тоді, коли всі працюють за одним і тим самим набором правил.

Саме тому настільки важлива послідовність. GrainODM застосовує одну й ту саму логіку до кожного зразка, щоразу — без відмінностей між змінами, без накопиченої втоми, без поступового суб’єктивного «зміщення» критеріїв з часом. За однакових вхідних умов система видає однаковий результат. Жоден людський оцінювач не здатен гарантувати таку поведінку в промислових масштабах.

Рішення: запуск у промислову експлуатацію

Пілотний проєкт успішно пройшов валідацію. Результати валідації показали, що ШІ може працювати на рівні експерта в реальних умовах прийому.

Реальні партії зерна. Реальні рішення, що впливають на фінанси. Результати системи є основою для визначення класу якості зерна — від 1-го до 4-го, — що, своєю чергою, впливає на ціноутворення, умови зберігання та подальше використання продукції. Це не тестове середовище. Ставки — реальні.

Що це означає для контролю якості зерна

Оцінка якості зерна завжди вимагала участі кваліфікованих фахівців. І це не зміниться.

Змінюється розподіл робочого навантаження. Система, що працює на рівні експерта — стабільно аналізує тисячі зразків, не втомлюється, фіксує відхилення на межі людського сприйняття — змінює те, на що фахівці витрачають свій час. Рутинна класифікація автоматизується. А нетипові випадки, неоднозначні партії, аналіз тенденцій за постачальниками — усе це залишається людям, компетенція яких — аналізувати такі ситуації.

Ми ніколи не ставили питання, чи зможе ШІ замінити лаборантів. Питання було в іншому: чи достатньо надійний ШІ, щоб стати їхнім повноцінним помічником?

Після 4 місяців, понад 600 аналізів та офіційної валідації за участі п’яти незалежних експертів ми впевнено відповідаємо: так.

Часті запитання

За 16 зразків пшениці та 18 категорій домішок ШІ показав усереднену збіжність 93,5% з п’ятьма незалежними лаборантами. Збіжність між лаборантами-людьми становила 95,2%, тож ШІ потрапив у природний розкид експертних оцінок.

Усі зразки надходили з реальних вантажів пшениці на комерційний об’єкт. ШІ та лабораторна команда оцінювали ті самі партії паралельно протягом приблизно чотирьох місяців, охоплюючи сотні рутинних вхідних тестів, а не вручну відібраний тестовий набір.

Найскладнішими категоріями були потемнілі зерна, тритикале та дрібні або зморщені зерна, плюс фузаріоз. Цільове перетренування значно знизило помилки в перших трьох; покращення класифікації фузаріозу досі залежить від збору більшої кількості якісно розмічених даних.

Цифри цього кейсу стосуються пшениці та стандартів оцінки цього об’єкту. Однак процес валідації – паралельний запуск ШІ, порівняння з кількома експертами та ітерація над найважчими випадками – можна повторити для інших культур, об’єктів і схем якості.

The New Standard in Grain Purity Analysis

Data, not guesswork. Learn how GrainODM sets a new benchmark for digital grain inspection.

Learn More & Watch Demo →

600x faster inspection

80% reduced labor costs

ШІ проти 5 лаборантів: наші висновки після 4 місяців і понад 600 аналізів пшениці

Часті запитання

Наскільки точно ШІ збігався з лаборантами?

Які зразки використовували в пілоті?

Де ШІ мав найбільші труднощі?

Чи можна узагальнити ці результати на інші культури чи об’єкти?

The New Standard in Grain Purity Analysis