ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

Українські дослідники протестували ШІ за завданнями ЗНО. Це зробила команда українських дослідників, яка представила ZNOVision — перший багатоформатний тест, що тестує можливості штучного інтелекту працювати з українською мовою, освітнім контентом і національною культурою, повідомляє dev.ua.

Результати есперименту

Жодна з моделей не набрала 70% правильних відповідей.

• 67,5% — у Gemini Pro,

• Claude 3.5 — 64,3%,

• Qwen2VL — 51,2%,

• GPT4o — 47 %.

Випадковий вибір дав би ≈ 22%.

Як тестували

ZNOVision складається з понад 4300 завдань, поділених на 13 категорій: від фізики та математики до історії й літератури. Понад половина з них містять візуальний компонент — схеми, діаграми, карти, малюнки. Частина питань потребує логічного виведення (reasoning), інша — точної інтерпретації інструкцій українською мовою.

До тестування залучили шість основних моделей:

• GPT4o,

• Claude 3.5 Sonnet,

• Gemini 1.5 Pro,

• Qwen2VL72B,

• Paligemma3B,

• донавчену версію PaligemmaFT.

Для обробки запитань та розгортання моделей команда використала хмарну інфраструктуру De Novo, яка надала доступ до GPU кластерів у приватній хмарі, сертифікованій за державними вимогами КСЗІ.

Помилки найчастіше траплялись у складних візуально-текстових завданнях: моделі не розпізнавали українські слова на зображеннях, плутали одиниці виміру, ігнорували частину формулювання.

У наборі VQAUA (візуальні запитання) моделі дали:

• Claude — 26,7%,

• GPT4o — 29%,

• Qwen2VL — 34,4%.

Це значно нижче англомовних результатів (> 60 %) й свідчить про відсутність підтримки української мови на рівні мультимодальних представлень.

ЗНО для ChatGPT та інших популярних моделей ШІ поки «не по зубах»: результати дослідження

Вподобайки:

Коментарі

Додати коментар

Новини:

Поділитися:

Події

Новини

Банк фраз: готові формулювання для сильного мотиваційного листа

Руслан ГУРАК: Частка здобувачів вищої освіти віком 25 років і старше — понад 20%

Вправа "Стоп фейк" для використання на уроках англійської мови, громадянської освіти, етика, Захист України, інформатики, основ здоров'я, правознавство у 7-12 класах

Одноосібні рішення МОН про об'єднання вишів будуть припинені, – Гришина

Науково-педагогічний журнал "Освітні обрії" №1/2025