🕒 АІ бачить годинник, але не знає, котра година.

Коли певна сфера знань набуває особливої значущості, ми схильні бачити її прояви навіть там, де їх насправді немає. Це нагадує ефект парейдолії — коли розпізнавання знайомого об’єкта стає настільки важливим, що мозок знаходить закономірності у випадковому. Такий механізм еволюційно виправданий: здатність до виявлення патернів настільки потужна, що ми іноді виявляємо структуру навіть у хаосі.

Чим раніше ми починаємо знайомство з певною темою і чим частіше з нею взаємодіємо, тим глибше вона закріплюється і тим довше зберігається. Один із найперших візуальних шаблонів, що формують наше сприйняття, — це зображення годинників: друковані матеріали чи аналогові моделі, які допомагають дитині навчитися розпізнавати час.

Попри зміну моди у світі дизайну годинників, наше раннє оволодіння цією візуальною системою вражає своєю стійкістю: ми здатні впізнавати аналогові циферблати навіть тоді, коли їх оформлення стає складним або ексцентричним.

Article content

Людській свідомості не потрібна тисяча варіантів, щоб зрозуміти принцип: достатньо одного разу осягнути концепцію, і ми можемо розпізнати годинник у майже будь-якій формі — навіть спотвореній чи абстрактній.

На цьому фоні особливо яскраво контрастують труднощі, з якими стикаються моделі штучного інтелекту. Їхня «сила» часто є наслідком масштабного тренування, а не справжнього розуміння.

Імітація чи розуміння?

Розрив між ефективністю на поверхні й глибоким опануванням смислу неодноразово ставав темою досліджень сучасних великих моделей. Минулого місяця команди з Чжецзянського та Вестлейкського університетів порушили це питання у статті з промовистою назвою: "Чи справді докторанти права (LLM) опанували елементарне додавання?" (цей текст не розглядає цю статтю детально).

Висновки дослідників:

«Попри успішне проходження тестів, моделі демонструють критичну залежність від порівняння зі зразками, а не справжнього розуміння. Це проявляється у збоях при роботі з символічними представленнями та порушеннях базових математичних властивостей.»
«Факт того, що чітке надання правил знижує якість результатів, свідчить про фундаментальні архітектурні обмеження. Висновки вказують на прогалини в оцінюванні моделей і підкреслюють потребу в системах, здатних до справжнього абстрактного мислення, а не лише до розпізнавання шаблонів.»

Цього тижня аналогічне питання постає в дослідженні, проведеному Нанкінським університетом аеронавтики та астронавтики у співпраці з Мадридським політехнічним університетом. У статті під назвою "Чи справді багатомодальні моделі великої мови (MLLM) навчилися визначати час на аналогових годинниках?" автори аналізують, наскільки ефективно сучасні мультимодальні моделі справляються з розпізнаванням часу.

Попри загальний опис прогресу, перші тести показали: навіть GPT-4.1, мультимодальна модель від OpenAI, мала суттєві труднощі з правильним зчитуванням часу з годинникових зображень — включно з простими випадками, де помилок бути не мало б.

Ці результати вказують на ймовірну прогалину в навчальних даних моделі, що підсилює потребу у більш збалансованих датасетах — аби визначити, чи здатна модель справді опанувати базові концепції, а не лише повторювати знайомі шаблони. Для цього дослідники створили синтетичний набір даних аналогових годинників, що рівномірно охоплює всі можливі варіанти часу й уникає упередженостей, притаманних зображенням з інтернету:

До налаштування на новому наборі даних GPT-4.1 систематично не справлявся із зчитуванням годинників. Проте після ознайомлення з синтетичними зображеннями його продуктивність зросла — але лише в межах зображень, схожих на ті, що були в наборі.

Як тільки змінювалась форма корпусу годинника або стиль стрілок, точність моделі стрімко падала. Навіть незначні зміни — наприклад, тонші стрілки або нові форми наконечників — призводили до суттєвих збоїв. GPT-4.1 також виявився не здатним інтерпретувати стилізовані зображення, як-от годинники у стилі Сальвадора Далі («танучі»).

Дослідники роблять висновок: сучасні моделі на кшталт GPT-4.1 здатні навчитися читати годинники лише шляхом візуального зіставлення, а не через справжнє розуміння концепції часу. Як вони пишуть:

GPT-4.1] не справляється із завданням, коли форма годинника змінена або коли стрілки зроблені тоншими й мають наконечники. Середня абсолютна похибка (MAE) при оцінці часу для 150 випадкових зображень склала:

– 232.48 секунд для базових годинників,

– 1380.69 секунд для деформованих форм,

– 3726.93 секунд для годинників зі зміненими стрілками.

Інакше кажучи, ці результати вказують на те, що мультимодальні великі мовні моделі (MLLM) поки що більше запам’ятовують зразки, ніж розуміють концепцію часу як таку. Попри здатність GPT-4.1 добре зчитувати час зі стандартних зображень годинників, навіть невеликі зміни у вигляді, такі як тонші стрілки чи додавання наконечників, призводять до суттєвого зниження точності.

Несподіваний результат:

«Інтуїтивно можна було б очікувати, що візуально складніша зміна — наприклад, спотворений циферблат — матиме більший негативний вплив. Але насправді ця модифікація мала менший вплив на продуктивність, ніж зміна форми стрілок».

Це ставить важливе питання: як саме мультимодальні мовні моделі (MLLM) "бачать" годинники — і чому саме вони зазнають невдач?

Можливі причини помилок:

  1. Зміна товщини стрілок може погіршувати розпізнавання напряму, на який вони вказують. Це порушує просторову орієнтацію, на якій модель будує свої висновки.

  2. Змішування функцій стрілок — коли модель неправильно інтерпретує, яка стрілка позначає годину, хвилину або секунду.

«Можливо, модель плутається через спробу об’єднати всі стрілки в єдиний висновок, і не має надійного способу інтерпретувати їхнє взаємне розташування».

Точне налаштування: що виявили експерименти?

Щоб перевірити, чи здатне донавчання виправити ці помилки, GPT-4.1 пройшов тонке налаштування на спеціальному синтетичному датасеті, що містив різні варіації годинників.

До тонкого налаштування:

  • Прогнози моделі були дуже розсіяними;

  • Значні похибки спостерігались для всіх типів годинників.

Після тонкого налаштування:

  • Точність значно зросла на звичайних зображеннях;

  • На спотворених циферблатах результати також покращилися, але менш суттєво;

  • А от модифіковані стрілки (тонші або з наконечниками) продовжували викликати серйозні помилки.

  • Інші моделі ліпше?

У межах експерименту були протестовані провідні моделі:

  • Meta Llama 3.2-Vision

  • Claude 3.5 Sonnet (Anthropic)

  • Gemini 2.0 (Google)

  • GPT-4o (OpenAI)

Результати виявилися невтішними: — точне визначення часу з аналогового годинника — лише у 38,7% випадків — правильне зчитування дати з візуального календаря — 26,3%

Ще більшим викликом виявилися запитання на кшталт: «Який день тижня буде 153-й день року?». Попри те, що арифметика — основа традиційного програмування, великі мовні моделі не вирішують завдання шляхом розрахунків. Вони прогнозують найімовірнішу відповідь, спираючись на приклади з навчальних даних. Ці результати ще раз нагадують: навіть найновіші мультимодальні моделі не мають справжнього розуміння — вони лише майстерно імітують його. Вони можуть блискуче відповідати на звичні текстові запити, але варто трохи змінити умови — ілюстрацію, стиль, форму — як система губиться. Та це не поразка. Це сигнал до зростання. Саме завдяки таким викликам ми краще розуміємо межі й можливості штучного інтелекту. І головне — ми бачимо, де ще потрібна людина. Її гнучкість, креативність, здатність мислити нестандартно й бачити сенс там, де машина бачить лише пікселі.

ШІ — це неймовірний інструмент. Але найкращі результати з'являються тоді, коли він працює разом із нами. Це не змагання — це співпраця. І в цій взаємодії — справжнє майбутнє.

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Максим Валін
Максим Валін@Dumkalab

Наука, Творчість, Натхнення

3.1KПрочитань
14Автори
29Читачі
Підтримати
На Друкарні з 3 травня

Більше від автора

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається