ПАН БІБЛІОТЕКАР: Як оновлювати дані правильно: 5 порад для дослідників

Сьогодні у нас модно рахувати “відкриті” й “FAIR” дані – для атестацій, грантодавців, чи просто, щоб тримати бібліотекарів у тонусі. В результаті часто маємо комічну ситуацію: наукова установа гордо звітує, що її дані fair-преfair, але чи можна відтворити ці дослідження – знають лише боги та домовички Zenodo. Тому, якщо ви хочете, щоб ваші дослідницькі дані справді довго жили й слугували відтворюваності, варто підійти до цього завдання серйозніше. Журнал Nature опублікував 5 порад, що допоможуть оновлювати дані й залишатись у добрих відносинах із відтворюваністю та здоровим глуздом.

1. Оберіть правильний репозитарій

Не тримайте дані на персональних сайтах чи Google Диску. Використовуйте репозитарії, що надають довгострокове зберігання, резервні копії й постійні ідентифікатори (DOI). Наприклад, Zenodo, Figshare, Dryad чи Open Science Framework.

2. Створюйте нові версії даних

Не перезаписуйте старе новим. Зберігайте всі версії – так можна буде відтворити будь-який попередній аналіз. Хороші репозитарії автоматично генерують DOI для кожної версії.

3. Використовуйте зрозумілі імена файлів і записуйте визначення термінів

Вигадайте зрозумілу систему іменування (наприклад, 2025-07-16_survey_v2.csv) і пояснюйте, що означають змінні, категорії та терміни. Це допоможе вам і вашим колегам зрозуміти такі дані навіть через роки після закінчення проєкту.

4. Ведіть журнал змін (changelog)

Записуйте, коли й що саме змінилося у ваших даних: нові змінні, виправлення помилок, використання іншого програмного забезпечення тощо. Це зробить ваші дані прозорими й зрозумілими для інших.

5. Оновлюйте формати й технології

Формати швидко застарівають, тому зберігайте дані у відкритих форматах й періодично конвертуйте файли у сучасні стандарти.

У статті Nature описують бест практіс справді осмисленої роботи з даними. Дослідники Portal Project ще з 1977 року збирають дані про гризунів, мурах та рослини в Аризоні. Спочатку вони ділилися ними неформально, але з 2019-го створили повністю автоматизований робочий процес: GitHub + Zenodo + Travis CI. У результаті зараз у Zenodo зберігається понад 620 версій датасету, і кожен може відтворити навіть найстаріший аналіз.

Тож можна збирати “FAIR-бали” для звітності й залишити за собою лише некрасиві безглузді PDF-звіти. А можна зробити так, щоб ваші дані дійсно пережили вас і були корисними наступним поколінням дослідників.