«Моделі штучного інтелекту руйнуються при тренуванні на рекурсивно згенерованих даних». Так вважає Ілля Шумайлов разом з колегами, які на сторінках Nature досліджують явище "колапсу моделі" – процес, під час якого поступово знижується якість моделей ШІ, що треновані на даних, згенерованих попередніми версіями моделей ШІ. Автори дослідження демонструють, що моделі втрачають інформацію у кожному новому поколінні та наводять приклади колапсу для різних типів, зокрема великих мовних моделей, варіаційних автокодувальників та моделей суміші Гауса.
Про що мова? Уявіть, що ви навчаєте ШІ малювати пейзажі й спочатку він вчиться на реальних світлинах та картинах великих художників. Однак згодом ШІ розпочинає копіювати малюнки, які створили інші ШІ, які також копіювали роботи попередніх ШІ...
З кожною новою копією втрачатиметься все більше оригінальних деталей і кожна нова копія тягнутиме в себе неточності з попередньої. Врешті-решт ми отримаємо спотворений, абсолютно не схожий на пейзаж, малюнок.
Ви також, мабуть, помічали, що під час генерації текстів ChatGPT часто намагається запропонувати відповідь, яка є досить загальною, такою собі “золотою серединою”, ніби машина навмисно особливо не ризикує, щоб не помилитись.
Якщо кожне нове покоління моделі вчитиметься на таких "спрощених" версіях реальних даних, то поступово зітреться інформація про важливі рідкісні та нестандартні випадки, модель розпочне думати, що все на світі є простішим, ніж насправді, і втратить зв'язок з реальністю.
Як бачите, справжні людські дані критично важливі для подальшого розвитку генеративних моделей і хто, як не бібліотекарі, повинні стати на захист цієї первісної, неотруєної інформації, забезпечуючи дослідників та ШІ-моделі автентичними джерелами?
Іронічно, але зарплата "вартових реальності" в Україні становить приблизно 250 євро на місяць, і поки технологічні гіганти інвестують мільярди в розвиток ШІ, при теперішніх цінах “останні національні бастіони знань” незабаром мріятимуть не про нові технології, а про мішок картоплі.
Можна відправити зонди, або встановити сенсори. Проблема давно відома тож підозрюю OpenAI і компанія знають як розбавити штучні дані.
ВідповістиВидалитиСумніваюсь, що людство незабаром відправить роботів досліджувати Всесвіт, щоб збирати нову інформацію та годувати ШІ-моделі неотруєними даними. Гадаю, корпораціям простіше вкрасти наше листування, мемуари, чернетки…
ВидалитиУ статті обіцяють, що все піде прахом приблизно у 9-му поколінні моделей? Нам потрібно дожити до того часу -- поки з одного боку війна, з іншого, як пишете, картопля. ШІ зачекає
ВидалитиШІ нас чекати не буде, але через хворих сусідів у нас нема особливого вибору(
ВидалитиВідкривається вікно можливостей для наукових видавництв, які тепер будуть вимагати оплати за доступ до рецензованих наукових праць не лише з читачів, але й з розробників.
ВідповістиВидалитиНаукові видавці вже давно на цьому заробляють. Як приклад, бронзовий відкритий доступ давно відомий, коли закривається доступ саме для машин, а білкові читачі можуть читати скільки влізе)
Видалити