ПАН БІБЛІОТЕКАР: Деградація та колапс штучного інтелекту

«Моделі штучного інтелекту руйнуються при тренуванні на рекурсивно згенерованих даних». Так вважає Ілля Шумайлов разом з колегами, які на сторінках Nature досліджують явище "колапсу моделі" – процес, під час якого поступово знижується якість моделей ШІ, що треновані на даних, згенерованих попередніми версіями моделей ШІ. Автори дослідження демонструють, що моделі втрачають інформацію у кожному новому поколінні та наводять приклади колапсу для різних типів, зокрема великих мовних моделей, варіаційних автокодувальників та моделей суміші Гауса.

Про що мова? Уявіть, що ви навчаєте ШІ малювати пейзажі й спочатку він вчиться на реальних світлинах та картинах великих художників. Однак згодом ШІ розпочинає копіювати малюнки, які створили інші ШІ, які також копіювали роботи попередніх ШІ...

З кожною новою копією втрачатиметься все більше оригінальних деталей і кожна нова копія тягнутиме в себе неточності з попередньої. Врешті-решт ми отримаємо спотворений, абсолютно не схожий на пейзаж, малюнок.

Ви також, мабуть, помічали, що під час генерації текстів ChatGPT часто намагається запропонувати відповідь, яка є досить загальною, такою собі “золотою серединою”, ніби машина навмисно особливо не ризикує, щоб не помилитись.

Якщо кожне нове покоління моделі вчитиметься на таких "спрощених" версіях реальних даних, то поступово зітреться інформація про важливі рідкісні та нестандартні випадки, модель розпочне думати, що все на світі є простішим, ніж насправді, і втратить зв'язок з реальністю.

Як бачите, справжні людські дані критично важливі для подальшого розвитку генеративних моделей і хто, як не бібліотекарі, повинні стати на захист цієї первісної, неотруєної інформації, забезпечуючи дослідників та ШІ-моделі автентичними джерелами?

Іронічно, але зарплата "вартових реальності" в Україні становить приблизно 250 євро на місяць, і поки технологічні гіганти інвестують мільярди в розвиток ШІ, при теперішніх цінах “останні національні бастіони знань” незабаром мріятимуть не про нові технології, а про мішок картоплі.

6 коментарів:

Анонім09.10.24, 16:46
Можна відправити зонди, або встановити сенсори. Проблема давно відома тож підозрюю OpenAI і компанія знають як розбавити штучні дані.
ВідповістиВидалити
Відповіді
Валерій М.10.10.24, 08:58
Відкривається вікно можливостей для наукових видавництв, які тепер будуть вимагати оплати за доступ до рецензованих наукових праць не лише з читачів, але й з розробників.
ВідповістиВидалити
Відповіді