ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження
Дата: 19.07.2025

Українські дослідники протестували ШІ за завданнями ЗНО. Це зробила команда українських дослідників, яка представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою, повідомляє dev.ua.

Результати есперименту

Жодна з моделей не набрала 70% правильних відповідей.

•  67,5% — у Gemini Pro,

•  Claude 3.5 — 64,3%,

•  Qwen2VL — 51,2%,

•  GPT4o — 47 %.

Випадковий вибір дав би ≈ 22%.

Як тестували

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей:

•  GPT4o,

•  Claude 3.5 Sonnet,

•  Gemini 1.5 Pro,

•  Qwen2VL72B,

•  Paligemma3B, 

•  донавчену версію PaligemmaFT.

Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ. 

Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.

У наборі VQAUA (візуальні запитання) моделі дали:

•  Claude — 26,7%,

•  GPT4o — 29%,

•  Qwen2VL — 34,4%.

Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.  

Джерело:

Вподобайки:

0
0
0
0

Коментарі

Поки що немає коментарів. Будьте першим, хто поділився своєю думкою!

Додати коментар

Новини:

Поділитися: