Бібліотека, яка мислить зв’язками: чому майбутнє за графами знань

Світ наукової інформації стрімко змінюється. Те, що раніше зберігалося у вигляді MARC-полів у бібліотечних каталогах, сьогодні дедалі частіше перетворюється на графи знань. Knowledge Graph – це спосіб представлення інформації у вигляді пов’язаних між собою сутностей: понять, людей, публікацій, організацій, методів. Основу такого представлення становлять триплети: наприклад, [Автор] – [написав] – [Публікація]. Кожен елемент у цій структурі має унікальний ідентифікатор, зрозумілий як для комп’ютера, так і для глобальних інформаційних систем. Це відкриває нам двері у прекрасний світ зв’язності, машинної обробки, багатомовності та інтеграції з різними джерелами (Linked Open Data). 

Головна відмінність графа знань від традиційних пошукових систем полягає в тому, що він працює не з ключовими словами, а зі зв’язками між поняттями. У пошуковику, наприклад Google Академія, ми вводимо "deep learning breast cancer" – і отримуємо перелік документів, у яких ці слова згадані. 

У графі знань ми ставимо питання: Які саме методи глибокого навчання використовуються для виявлення раку, з якою точністю, на яких наборах даних, і хто працює над цим в Україні? І отримуємо не просто перелік статей, а логічно впорядковану інформацію, що дозволяє робити порівняння, виявляти тренди, бачити структуру знань. 

Чим це відрізняється від популярних чат-ботів, зокрема ЧатГПТ? ChatGPT – це мовна модель, яка генерує відповіді на основі ймовірностей, спираючись на те, що вона "вивчила" під час тренування. Вона не має безпосереднього доступу до знань як до структури. 

Натомість Knowledge Graph – це логічно організовані факти, які можна перевірити, цитувати, уточнювати та поєднувати між собою. Найефективніший на сьогодні підхід – це не протиставлення, а поєднання: генеративна модель використовує граф знань як джерело фактів, отримуючи точні, релевантні та перевірені відповіді без галюцинацій (системи на кшталт RAG – Retrieval-Augmented Generation). 

Втім, побудова і наповнення графа знань – завдання не з простих. Ручне моделювання потребує розуміння онтологій, типів зв’язків, сутностей і їхніх властивостей. Якщо деякі наші бібліотекарі не можуть правильно внести коректну інформацію навіть у 3-4 поля, то про які глибинні зв'язки може йти мова? 

Автоматичне витягування знань із тексту за допомогою NLP теж не позбавлене помилок – особливо в складних синтаксичних конструкціях або за умов неоднозначності. Саме тому сучасні графи знань активно інтегруються з уже наявними джерелами (Wikidata, Crossref, OpenCitations) і покладаються на контрольовані словники й онтології (Schema.org, Dublin Core, FOAF, SKOS). 

На технічному рівні графи знань зберігаються у форматах, які підтримують триплетну структуру: Turtle, RDF/XML, JSON-LD, N-Triples. Ці формати дозволяють використовувати багатомовні мітки, створювати унікальні ідентифікатори для сутностей та забезпечувати повну інтероперабельність між системами. 

Для бібліотек, що мають досвід роботи з MARC21 або UNIMARC, це спочатку може здаватися радикальною зміною. Проте насправді мова йде не про відмову від каталогізації, а про її оновлення. Трансформація RDA у RDF та BIBFRAME створені саме для того, щоб забезпечити перехід від традиційних MARC-даних до відкритих, машиночитних і зв’язаних метаданих. Ще розмірковуєте, яку АБІС обрати? Зовсім скоро традиційні системи знадобляться хіба що для ведення інвентарного обліку.  

Наостанок варто ще згадати про зв'язок з CRIS (Current Research Information Systems) – це системи для обліку наукових результатів, які використовують стандарт CERIF. Цей стандарт логічно подібний до RDF (описує сутності та їхні зв’язки), але не є повноцінним графом знань. Втім, такі системи як VIVO, OpenAIRE Research Graph або Dimensions вже демонструють, як можна перетворити CRIS-дані в графову структуру, придатну для аналізу, візуалізації та інтеграції з GAI. 

Загалом, традиційні бібліографічні та наукові системи формувались у контексті друкованої епохи. Їхня структура логічна, формалізована, але замкнена. Світ, у якому ми живемо сьогодні, вимагає зовсім іншого підходу: знання мають бути відкритими, машиночитними, багатомовними, інтероперабельними та взаємопов’язаними. Саме тому графи знань – це інфраструктура для майбутнього бібліотек, наукової комунікації, систем звітності, аналітики та відкритої науки.

6 коментарів:

  1. Анонім06.06.25, 12:30

    Є ще Open Knowledge Maps https://openknowledgemaps.org/

    ВідповістиВидалити
    Відповіді
    1. Open Knowledge Maps - це безплатний онлайн-сервіс, який створює візуальні карти знань за темами на основі публікацій з BASE та PubMed. Але він не є повноцінним графом знань! Це радше інтерфейс, який формує кластери на основі подібності документів, без онтології та семантичної структури.

      Видалити
  2. Анонім06.06.25, 15:07

    Українські бібліотекарі можуть наповнювати базу даних знань для подібних проектів? - Якщо не вітчизняних, то хоча б для іноземних? - Чи для цього потрібне додаткове навчання?

    ВідповістиВидалити
    Відповіді
    1. Хто тоді для МОН звіти писатиме?) Звичайно наших бібліотекарів (з базовою англійською) можуть найняти іноземні розробники, однак, на мою думку, буде важко координувати роботу + у нас не так багато відповідних кадрів і схоже нова генерація навряд суттєво покращить ситуацію.

      Видалити
  3. Анонім06.06.25, 15:22

    Читати неможливо!!! Одні абревіатури FOAF, SKOS, JSON-LD, N-Triples, RDA у RDF! Що вони означають? Хто повинен все це знати і як ц нам допоможе обслуговувати користувачів? Діти приходять і просять підручник, а ми їм замість книжки FOAF, SKOS, JSON-LD ітд.

    ВідповістиВидалити
    Відповіді
    1. На щастя є бібліотекарі, що знають, а університетська бібліотека у XXI столітті - це далеко не тільки видача підручників.

      Видалити