Світ наукової інформації стрімко змінюється. Те, що раніше зберігалося у вигляді MARC-полів у бібліотечних каталогах, сьогодні дедалі частіше перетворюється на графи знань. Knowledge Graph – це спосіб представлення інформації у вигляді пов’язаних між собою сутностей: понять, людей, публікацій, організацій, методів. Основу такого представлення становлять триплети: наприклад, [Автор] – [написав] – [Публікація]. Кожен елемент у цій структурі має унікальний ідентифікатор, зрозумілий як для комп’ютера, так і для глобальних інформаційних систем. Це відкриває нам двері у прекрасний світ зв’язності, машинної обробки, багатомовності та інтеграції з різними джерелами (Linked Open Data).
Головна відмінність графа знань від традиційних пошукових систем полягає в тому, що він працює не з ключовими словами, а зі зв’язками між поняттями. У пошуковику, наприклад Google Академія, ми вводимо "deep learning breast cancer" – і отримуємо перелік документів, у яких ці слова згадані.
У графі знань ми ставимо питання: Які саме методи глибокого навчання використовуються для виявлення раку, з якою точністю, на яких наборах даних, і хто працює над цим в Україні? І отримуємо не просто перелік статей, а логічно впорядковану інформацію, що дозволяє робити порівняння, виявляти тренди, бачити структуру знань.
Чим це відрізняється від популярних чат-ботів, зокрема ЧатГПТ? ChatGPT – це мовна модель, яка генерує відповіді на основі ймовірностей, спираючись на те, що вона "вивчила" під час тренування. Вона не має безпосереднього доступу до знань як до структури.
Натомість Knowledge Graph – це логічно організовані факти, які можна перевірити, цитувати, уточнювати та поєднувати між собою. Найефективніший на сьогодні підхід – це не протиставлення, а поєднання: генеративна модель використовує граф знань як джерело фактів, отримуючи точні, релевантні та перевірені відповіді без галюцинацій (системи на кшталт RAG – Retrieval-Augmented Generation).
Втім, побудова і наповнення графа знань – завдання не з простих. Ручне моделювання потребує розуміння онтологій, типів зв’язків, сутностей і їхніх властивостей. Якщо деякі наші бібліотекарі не можуть правильно внести коректну інформацію навіть у 3-4 поля, то про які глибинні зв'язки може йти мова?
Автоматичне витягування знань із тексту за допомогою NLP теж не позбавлене помилок – особливо в складних синтаксичних конструкціях або за умов неоднозначності. Саме тому сучасні графи знань активно інтегруються з уже наявними джерелами (Wikidata, Crossref, OpenCitations) і покладаються на контрольовані словники й онтології (Schema.org, Dublin Core, FOAF, SKOS).
На технічному рівні графи знань зберігаються у форматах, які підтримують триплетну структуру: Turtle, RDF/XML, JSON-LD, N-Triples. Ці формати дозволяють використовувати багатомовні мітки, створювати унікальні ідентифікатори для сутностей та забезпечувати повну інтероперабельність між системами.
Для бібліотек, що мають досвід роботи з MARC21 або UNIMARC, це спочатку може здаватися радикальною зміною. Проте насправді мова йде не про відмову від каталогізації, а про її оновлення. Трансформація RDA у RDF та BIBFRAME створені саме для того, щоб забезпечити перехід від традиційних MARC-даних до відкритих, машиночитних і зв’язаних метаданих. Ще розмірковуєте, яку АБІС обрати? Зовсім скоро традиційні системи знадобляться хіба що для ведення інвентарного обліку.
Наостанок варто ще згадати про зв'язок з CRIS (Current Research Information Systems) – це системи для обліку наукових результатів, які використовують стандарт CERIF. Цей стандарт логічно подібний до RDF (описує сутності та їхні зв’язки), але не є повноцінним графом знань. Втім, такі системи як VIVO, OpenAIRE Research Graph або Dimensions вже демонструють, як можна перетворити CRIS-дані в графову структуру, придатну для аналізу, візуалізації та інтеграції з GAI.
Загалом, традиційні бібліографічні та наукові системи формувались у контексті друкованої епохи. Їхня структура логічна, формалізована, але замкнена. Світ, у якому ми живемо сьогодні, вимагає зовсім іншого підходу: знання мають бути відкритими, машиночитними, багатомовними, інтероперабельними та взаємопов’язаними. Саме тому графи знань – це інфраструктура для майбутнього бібліотек, наукової комунікації, систем звітності, аналітики та відкритої науки.
Є ще Open Knowledge Maps https://openknowledgemaps.org/
ВідповістиВидалитиOpen Knowledge Maps - це безплатний онлайн-сервіс, який створює візуальні карти знань за темами на основі публікацій з BASE та PubMed. Але він не є повноцінним графом знань! Це радше інтерфейс, який формує кластери на основі подібності документів, без онтології та семантичної структури.
ВидалитиУкраїнські бібліотекарі можуть наповнювати базу даних знань для подібних проектів? - Якщо не вітчизняних, то хоча б для іноземних? - Чи для цього потрібне додаткове навчання?
ВідповістиВидалитиХто тоді для МОН звіти писатиме?) Звичайно наших бібліотекарів (з базовою англійською) можуть найняти іноземні розробники, однак, на мою думку, буде важко координувати роботу + у нас не так багато відповідних кадрів і схоже нова генерація навряд суттєво покращить ситуацію.
ВидалитиЧитати неможливо!!! Одні абревіатури FOAF, SKOS, JSON-LD, N-Triples, RDA у RDF! Що вони означають? Хто повинен все це знати і як ц нам допоможе обслуговувати користувачів? Діти приходять і просять підручник, а ми їм замість книжки FOAF, SKOS, JSON-LD ітд.
ВідповістиВидалитиНа щастя є бібліотекарі, що знають, а університетська бібліотека у XXI столітті - це далеко не тільки видача підручників.
Видалити