Відкрита

оновлено понад 4 років тому

#2

Проблемы с набором

Набор имеет ряд проблем:

  1. Набор представляет собой экспорт из ElasticSearch. При этом модель данных в Эластике для большинства полей является "nested", т.е. данные вложены и хранятся не массивами, а отдельными объектами, что затрудняет разбор полученного JSON-файла.

  2. В модели данных (https://nrat.gov.ua/opendata.json) четко видно, что репозиторий хранит полные тексты (full_texts), но в виде открытых данных их решили не публиковать. Почему-то...

  3. Качество данных во многих аспектах оставляет желать лучшего. Отсутствие стандартизации и адекватных идентификаторов:

  4. Даты были "убиты" при экспорте. Во многих случаях вместо даты в ISO формате "\d{4}-\d{2}-\d{2}" вы увидите просто восемь цифр без разделителей "\d{8}". Часть дат почему-то имеет значение 1900-01-01.

  5. Названия исследований:

    • Часть названий текстов отсутствует или имеет значения типа "?????????".
    • Названия могут быть в кавычках или без таковых.
    • Часть названий начинается с символа "." или "1.".
    • Заголовки могут содержать символы "\n".
    • Заголовки могут содержать куски метаинформации, которая не имеет отношения к самой теме исследования.
    • Заголовки содержат излишние повторения.
    • Заголовки содержат латинские символы в украинских словах
    • Римские цифры в заголовках могут состоять из кириллических "І".
    • Заголовки содержат полные повторы названий. 365 названий повторяютс слово в слово, а темы "Приватне обвинувачення як диференціація кримінально-процесуальної форми" и "Управління фінансовими ресурсами сільськогосподарських підприємств" встречается по 4 раза!
  6. Коды степеней не унифицированы и дублируются. Задвоения получаются за счет использования двух и более пробелов подряд в названиях кодов.

  7. Названия степеней частично раскрыты полностью, частично дублируют коды.

  8. Коды ЕГПРОУ юридических лиц могут содержать по 9 символов и лишние знаки ".".

  9. Коды рубрикатора НТИ дублируются за счет лишних точек в кодах.

  10. Названия рубрикатора НТИ вместо названий иногда содержат код НТИ (как раз в тех случаях, когда в коде лишняя точка в конце). Названия могут быть невалидны. Например, вместо названия "Державні фінанси" для 06.73.15 в данных указано "(Фінанси...) -> 06.73.15".

  11. Дата защиты и дата регистрации плохо сочетаются между собой. Разница между ними может составлять от -5867 до 6204 дней (да, в разные стороны).

  12. Идентификаторы авторов не являются идентификаторами. По базе получается всего 31 автор, которые написали по 2 работы. С учетом кандидатских и докторских их должно быть на порядок больше.

  13. Тексты. Тут я промолчу. К текстам бесполезно предъявлять требования по чистоте.

  14. Потенциальная неполнота данных. В данных есть идентификатор, который представляет собой целочисленное инкрементальное значение. В наборе 125 380 текстов, а максимальное значение идентификатора - 127 380. Где-то было около 2 тысяч удалений. Кроме этого есть жалобы от тех, кто не нашел своих работ или своих подопечных.

  15. Актуальность набора вызывает вопросы. Последние зарегистрированные работы датированы сентябрем 2019 года. Непонятно, продолжалась ли работа над репозиторием дальше вообще?

Власник

Шановний дописувачу "amice13", відповідальною установою за створення та оновлення набору даних «Національний репозитарій академічних текстів» є Державна наукова установа «Український інститут науково-технічної експертизи та інформації» (далі - УкрІНТЕІ), за інформацією якого надаємо відповідь на ваші питання. Більшість порушених питань пов'язана із змістовним наповненням. Слід враховувати, що в репозитарій надходять дані з Фондів науково-дослідних та дослідно-конструкторських робіт (НДДКР) і дисертацій в тому вигляді, в якому вони були передані до УкрІНТЕІ. Тому помилкові ЄДРПОУ, неформатні дати або спецсимволи, інша уніфікація, зокрема, дати захисту та ідентифікатори авторів - все це є відображенням існуючого змісту Фонду, наповнення якого із урахуванням всіх довідників, уніфікованих прізвищ та кодів почалося частково лише у 2019 році, хоча продовжується також і за старою системою (яка відповідає актуальному порядку реєстрації). Робота над репозитарієм продовжується, але автоматизована синхронізація Фондів та репозитарію не реалізована, реалізацію планується здійснити протягом 2020 року (разом із підключенням інституціональних учасників). Завантаження повних текстів звітів та дисертацій до порталу відкритих даних не заплановано.