Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков тема диссертации и автореферата по ВАК РФ 05.25.05, кандидат наук Князева, Анна Анатольевна

  • Князева, Анна Анатольевна
  • кандидат науккандидат наук
  • 2014, Новосибирск
  • Специальность ВАК РФ05.25.05
  • Количество страниц 147
Князева, Анна Анатольевна. Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков: дис. кандидат наук: 05.25.05 - Информационные системы и процессы, правовые аспекты информатики. Новосибирск. 2014. 147 с.

Оглавление диссертации кандидат наук Князева, Анна Анатольевна

Оглавление

Введение

Глава 1 Задача автоматического связывания записей

библиографических баз данных

1.1 Авторитетный контроль библиотечного каталога

1.2 Автоматизация библиотек и авторитетный контроль

1.3 Связывание записей

1.3.1 Подготовка данных

1.3.2 Составление пар

1.3.3 Сравнение отдельных полей в парах записей

1.3.4 Принятие решения для каждой из пар

1.3.5 Обучение решающей функции

1.3.6 Оценка качества связывания

1.4 Обзор систем связывания записей

Глава 2 Модель связывания записей и технология

автоматического авторитетного контроля

2.1 Аналитическая модель связывания записей

2.2 Концептуальная модель связывания записей и процедурные модели функциональных блоков

2.2.1 Блок «Подготовка»

2.2.2 Блок «Составление пар»

2.2.3 Блок «Сравнение отдельных полей в паре записей»

2.2.4 Блок «Принятие решения»

2.3 Технология автоматического авторитетного

контроля

2.3.1 Подготовка данных

2.3.2 Составление пар

2.3.3 Сравнение отдельных полей в паре записей

2.3.4 Принятие решения

2.3.5 Обучение системы

2.3.6 Оценка качества связывания

Глава 3 Экспериментальное исследование технологии

автоматического авторитетного контроля

3.1 Описание программного комплекса «ААК-персоны»

3.2 Требования к базам данных

3.3 Консольный клиент аак

3.4 Модуль статистического анализа

3.4.1 Принятие решения

3.4.2 Обучение решающей функции

3.4.3 Оценка качества связывания

3.5 Описание экспериментов

3.5.1 Первая группа экспериментов

3.5.2 Вторая группа экспериментов

3.5.3 Третья группа экспериментов

3.6 Результаты экспериментального исследования

Заключение

Список сокращений и условных обозначений

Список литературы

Приложения

А Примеры записей

А.1 Пример библиографической записи

A.2 Пример авторитетной записи

Б Описание используемых баз данных

Б.1 База авторитетных записей

Б.2 База библиографических записей

В Входные требования к записям

B.1 Требования к библиографической записи

В.2 Требования к авторитетной записи

Г Консольный клиент аак и модуль статистического анализа stat

Г. 1 Консольный клиент аак

Г. 2 Функции, входящие в состав модуля

статистического анализа stat

Д Ранжированные признаки

Д.1 Минимальный набор признаков

Д.2 Стандартный набор признаков

Д.З Расширенный набор признаков

Е Оценки матриц W~l для трех групп экспериментов

Ж Акты о внедрении результатов работы

Рекомендованный список диссертаций по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Введение диссертации (часть автореферата) на тему «Автоматическое связывание записей библиографических баз данных на основе унифицированных поисковых признаков»

Введение

Актуальность проблемы. Вопросы идентификации объектов реального мира в библиографических и других данных становятся все более актуальными в связи с постоянным ростом объемов информации, а также развитием наукометрических исследований. В качестве объектов, которые необходимо идентифицировать, могут выступать персоны, организации, географические объекты и т.п. Необходимость идентификации объектов реального мира в библиографических данных рассматривалась бельгийским социологом Полем Отле1 еще в конце XIX века [63,64]. Такую идентификацию можно осуществить с помощью установления связи со специальной авторитетной/нормативной2 записью, однозначно указывающей на данный объект. В качестве такой записи может выступать любой структурированный документ, содержащий информацию об объекте и удовлетворяющий требованиям, разработанным международными организациями [82].

В настоящее время различные системы учета публикаций, например, Scopus [129], Web of Science [138], SCIENCE INDEX (на базе РИНЦ) [72] используют различные идентификационные коды авторов3. При этом один автор может упоминаться в различных базах с разными кодами. Таким образом, является актуальной задача связывания этих кодов между собой [52], а также их привязки к базам авторитетных записей имен лиц, которые используются в библиотеках. Развитие данного подхода способно улучшить качество наукометрических показателей за счет учета публикаций автора, учтенных в различных базах данных.

Работа велась в соответствии с концепциями и принципами автоматизации библиотек, принятыми в российском библиотечном сообществе. Процесс авто-

'Поль Отле - Paul Otlet

2Далее в рамках данной работы используется термин авторитетная запись

3ORCID, ResearcherID, SPIN-код соответственно

матизации библиотек и построения распределённых систем на их основе продолжается уже несколько десятков лет. Это комплексный процесс, включающий целый ряд частных задач и объединяющий множество исследователей.

Разработкой и модернизацией форматов машиночитаемых библиографических записей занимались Каспарова H.H., Загорская Е.И. [70,71], Бахтурина Т.А. [10-13], Дудник И.С. [28], Калинина Г.П. [30], Кулыгина Н.Ю. [49], Масху-лия T.JI. [55,56], Экстрем М.В. [89] и др.

Также вопросы авторитетного контроля, создания и ведения авторитетных файлов освещались в работах Муктепавел A.B. [60], Лаврёновой O.A. [50], Ковалёвой А.М. [43], Букиной Е.С. [17], Мешечак H.A., Шамардиной Л.А., Карауша A.C. [58], Байтингер Г.А., Дубовицкой O.A., Васильевой Ж.В. [8] и др.

Построение и эксплуатация автоматизированных библиотечных систем рассматривались в работах Шрайберга Я.Л. [87], Воройского Ф.С. [18], Маршака Б.И. [54], Бродовского А.И. [16]. Проектированию и созданию распределённых информационных систем посвящены работы Калиниченко Л.А. [31], Шо-кина Ю.И., Федотова А.М. [86], Жижимова О.Л. [23], Племнека А.И. [67,68], Колобова О.С. [44-46], Мазова H.A. [53] и др.

Развитие информационных технологий, позволившее организовывать работу с полнотекстовыми документами, привело к созданию электронных библиотек. Принципы создания электронных библиотек, а также анализ опыта создания и эксплуатации полнотекстовых коллекций описываются в работах Воройского Ф.С. [18], Колосова К.А. [47,48], Антопольского А.Б. [3], Соколовой Н.В. [75], Земскова А. И. [27], Шрайберга Я.Л. [62], Жабко Е.Д. [22] и др.

В настоящее время существуют различные АБИС4, такие как «Руслан», «ИРБИС», «БУКИ», «Нева» и др. Большинство из них позволяет осуществлять авторитетный контроль электронного библиотечного каталога. При этом под авторитетным контролем понимается процесс поддержания единообразия форм авторитетных заголовков, определяющих одно и тоже лицо, организацию, предмет и так далее в библиографическом файле, контроль за адекватностью присвоения предметных рубрик и индексов библиотечно-библиографических клас-

4АБИС - Автоматизированная библиотечно-информационная система

сификаций документам, а также контроль за последовательным соблюдением принципов, методик, инструкций и правил по представлению поисковых признаков.

Сам процесс установления связи между авторитетными и библиографическими записями в рамках существующих АБИС выполняется каталогизатором. С

i

одной стороны, эксперт может устанавливать достаточно надежные связи между записями, за счет привлечения дополнительной информации, не содержащейся в самих записях. С другой стороны, такой подход предполагает большой объем ручного труда, сложность ретроспективного анализа и множество «упущенных» связей между записями.

Задача создания автоматического авторитетного контроля была впервые поставлена в рамках данной работы. Для решения данной задачи было решено использовать принципы и методики связывания записей (record linkage) в применении к библиографическим данным. В настоящее время существует множество работ в области связывания записей или выявления дубликатов зарубежных и отечественных авторов. Так, среди зарубежных авторов следует отметить работы William Е. Winkler [139,140], Mikhail Y. Bilenko [97], Jeremy A. Hylton [111], Mauricio A. Hernández и Salvatore J. Stolfo [110], Peter Christen и Tim Churches [99], Pawel Jurczyk [114] и др. Выявлением дубликатов в библиографических базах данных в России занимались Серебряков В.А., Антопольский А.Б., Каленкова A.A. [2], Атаева О.М., Шиолашвили JT.H. [6], Чудин А. [25]. Проблемам выявления дубликатов записей в форматах, отличных от форматов семейства MARC, посвящены работы Зелепухиной В.А. [78], Пинжина А.Е. [66], Тарасова С. [76] и др. Однако, среди них нет работ, в которых рассматривается задача связывания записей разной структуры в форматах семейства MARC5, в которых, на сегодняшний день, представлена практически вся библиографическая информация.

Существуют также различные системы связывания записей, такие как MARLIN [97], TAILOR [104], Febrl [99] и др. Данные системы нацелены на работу по связыванию адресов, информации о пациентах или библиографических

5Machine-Readable Cataloging (англ.) - формат машиночитаемой каталогизационной записи

ссылок одной строкой. Применить данные системы к решению поставленной задачи не представляется возможным, поскольку они не поддерживают работу с записями в MARC-форматах.

Задача выявления и слияния нескольких авторитетных записей для одного автора решалась в рамках проекта VIAF6 Международной федерации библиотечных ассоциаций и учреждений (IFLA). Целью проекта является обеспечение возможности автоматического сопоставления и связывания авторитетных записей из различных национальных источников. Подход, применяемый в проекте VIAF, не может быть применен к решению нашей задачи, поскольку он основан на экспертной оценке значимости признаков, участвующих в сопоставлении.

Цель диссертационной работы. Разработать технологию автоматического авторитетного контроля, позволяющую устанавливать связи между библиографическими записями, относящимися к одному объекту реального мира.

Задачи. Реализация данной цели предполагает решение следующих задач:

1. Сформулировать и проанализировать основные требования к процедуре связывания, исходя из особенностей библиографических данных;

2. Разработать модель связывания библиографических записей;

3. Разработать технологию связывания авторитетных и библиографических записей, относящихся к одному и тому же автору;

4. Сформулировать рекомендации по наполнению библиографических баз данных для повышения качества связывания.

На защиту выносятся:

- Аналитическая и концептуальная модели связывания библиографических записей, основанные на методах машинного обучения;

- Технология идентификации библиографических данных, позволяющая связывать авторитетные и библиографические записи в формате RUSMARC, относящиеся к одному автору;

- Ранжированный набор признаков и весовые коэффициенты, полученные на основе реальных данных;

6The Virtual International Authority File (англ.) - Виртуальный авторитетный файл

- Разработанный программный комплекс «ААК-персоны», позволяющий проводить обучение на основе библиографических данных и устанавливать связи между библиографическими и авторитетными записями в формате КШМА11С без участия эксперта.

Научная новизна. На основе общих принципов связывания записей впервые сформулированы требования к системе автоматического авторитетного контроля (ААК), позволяющей идентифицировать объекты реального мира в библиографических записях без участия эксперта. Предложен набор моделей связывания библиографических записей в условиях неполноты данных и взаимозависимости признаков. Модель предусматривает возможность использования информации об уже установленных связях. Реализован алгоритм обучения системы на основе набора пар записей с отметками о принадлежности к одному из двух классов: пар записей с упоминанием одного объекта и пар записей с упоминанием разных объектов реального мира. Предложена процедура отбора наиболее значимых признаков для связывания. На основе сформулированных требований и в соответствии с предложенными моделями разработана технология автоматического авторитетного контроля персон в библиографических записях в формате ЯиЗМАЯС.

Методы исследований. В работе применялись методы классификации, непараметрической статистики, нечеткого сопоставления строк и принципы связывания записей.

Достоверность результатов подтверждается проведенным экспериментальным исследованием по связыванию записей из библиографической и авторитетной баз данных Некоммерческого партнерства по содействию медицинским библиотекам «МедАрт»7, а также использованием результатов, что подтверждено соответствующими документами.

Практическая значимость. Результаты диссертационной работы могут использоваться для решения задач автоматического связывания библиографических записей. В частности, предлагаемая технология позволяет организовать ААК библиографических данных с учетом особенностей конкретной коллекции

7Обьем коллекций около 300 тысяч и 10 тысяч записей соответственно

и информации об уже установленных связях. В работе представлены рекомендации по наполнению библиографических баз данных, позволяющие повысить качество связывания записей. Предлагаемый подход является достаточно общим и может быть перенесен на задачу выявления дубликатов среди записей, как библиографических, так и авторитетных.

Представление работы. По теме диссертации были сделаны сообщения и доклады на научно-практических конференциях: 01СЯ (Российская конференция с международным участием «Распределённые информационные и вычислительные ресурсы», г. Новосибирск, 2010, 2012 гг.), Современные проблемы математики, информатики и биоинформатики (Международная конференция «Современные проблемы математики, информатики и биоинформатики», посвященная 100-летию со дня рождения члена-корреспондента АН СССР Алексея Андреевича Ляпунова, г. Новосибирск, 2011), "КСБЬ" (Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», г. Переславль-Залесский, 2012, г. Ярославль, 2013), "МТЕ" (Всероссийская конференция молодых ученых «Материаловедение, технологии и экология в третьем тысячелетии», г. Томск, 2012), «Корпоративные информационно-библиотечные системы: технологии и инновации» (XI международная конференция и выставка, г. Санкт-Петербург, 2013). Работа выполнялась при финансовой поддержке Министерства образования и науки Российской Федерации (грант №07.514.11.41308).

Реализация и внедрение результатов работы. Разработанные в диссертации методы и алгоритмы внедрены и использованы при выполнении Государственных контрактов в ИВТ СО РАН, а также в рабочем процессе Некоммерческого партнерства по содействию медицинским библиотекам «МедАрт», Научно-медицинской библиотеки Сибирского государственного медицинского университета и Ленинградской областной универсальной научной библиотеки, что подтверждено актами о внедрении, прилагаемыми к диссертационной работе

Разработка принципов и программных средств виртуальной интеграции распределённых источников данных на основе международных стандартов для создания масштабных информационных инфраструктур (шифр «2012-1.407-514-0022-004»),

Глава 1

Задача автоматического связывания записей библиографических баз данных

Введение

В современном мире количество информации, доступной широкому кругу пользователей, растет с огромной скоростью. Существует острая необходимость хранения, систематизации и организации поиска этой информации. В частности, это касается информации о публикациях, содержащейся в библиотечных каталогах.

Возможность автоматического установления связей между записями, относящимися к одному объекту реального мира или понятию (предметной рубрики), позволила бы существенно улучшить ситуацию с информационным поиском в электронном каталоге. Такие связи позволяют значительно увеличить и полноту и точность поиска.

В рамках данной работы решалась задача автоматического сопоставления библиографической записи с авторитетными записями и вынесения решения о соответствии, либо несоответствии для каждой из авторитетных записей. Под авторитетными данными будем понимать авторитетный файл имен авторов, однако общий подход, изложенный в работе, может быть применен и к другим видам авторитетных записей (таких, как наименования организаций или предметные рубрики). Следует отметить, что в работе нет разграничения по видам вклада в произведение и в качестве «автора» может выступать и редактор, иллюстратор

и любой человек, о котором есть упоминание в библиографической записи. Это делается для того, чтобы не усложнять изложение.

Предметная область работы описывается в терминах модели, разработанной в рамках проекта «Функциональные требования к библиографическим записям» [83]. Согласно этой модели, и автор и произведение выступают в роли объектов, тогда как информация о них, такая как фамилия автора, место его работы, наименование произведения и т.п. являются их атрибутами. На основе сравнения значений атрибутов в двух записях делается вывод о соответствии, если обе записи описывают одну и ту же персону, имеющую отношение к произведению.

Поставленная задача имеет непосредственное отношение к библиотечному делу, в частности, к авторитетному контролю библиотечного каталога. Также ее можно отнести к задачам в области библиотечной информатизации и организации информационных ресурсов. Кроме того, очевидно, она является частным случаем задачи связывания записей, широко распространенной в области организации и поддержки самых разнообразных баз данных.

1.1 Авторитетный контроль библиотечного каталога

История развития авторитетного контроля начала свое развитие примерно с конца XIX в. Классик американской каталогизации Ч. Кеттер выдвигал идею авторитетного контроля каталога с помощью «авторских списков каталогизатора в алфавитном порядке». Во времена Кеттера при традиционной организации каталогов эта идея не получила должного развития, так как затраты (как временные, так материальные) на создание и ведение таких списков не оправдывались [60].

С начала 70-х гг. в связи с внедрением компьютерных средств в библиотечную практику, авторитетный контроль начал опираться на компьютерные технологии. Развитие машиночитаемых авторитетных файлов началось с первой публикации формата "Authorities, a MARC Format"B 1981 г. (предварительное издание формата было выпущено в 1976 г.).

Первоначальной идеей авторитетного контроля было исключительно удобство каталогизации. В дальнейшем появились различные определения назначения и функций авторитетного контроля. Так была сформулирована идея о том, что авторитетный контроль должен выполнять функцию унификации написания вариантов имен, заглавий и предметов [60]. Такая унификация позволяет существенно повысить качество информационного поиска. Использование авторитетных записей имен авторов позволяет учитывать смену фамилии (например, при замужестве), разночтения при переводе зарубежных источников (например, «Джерард Солтон» и «Герард Сэлтон») и любые другие несоответствия в именах.

Развитие машиночитаемых авторитетных файлов позволило перенести авторитетный контроль на качественно новый уровень развития. Появилась возможность использования одного авторитетного файла несколькими библиотеками. Это важный момент, поскольку создание авторитетной записи - достаточно сложный и дорогостоящий процесс, требующий участия квалифицированных каталогизаторов [43]. Таким образом, появилась принципиальная возможность осуществлять авторитетный контроль на региональном, национальном и международном уровне.

Работы по организации авторитетных данных на международном уровне начали проводиться после конференции в Париже 1961 г., которая положила начало унификации библиографического описания для обмена данными между разными странами. В 1977 г. ЮНЕСКО поручила национальным библиотекам ведение авторитетных/нормативных файлов имен авторов. Затем была создана рабочая группа по Международной авторитетной системе. Основным результатом работы этой группы было признание необходимости авторитетного контроля для эффективного международного универсального библиографического контроля. В 1979 г. по инициативе двух секций IFLA1 (каталогизации и информационной технологии) была создана рабочая группа, которой предстояло определить составляющие нормативной записи и подготовить коммуникативный формат [60].

'international Federation of Library Associations (англ.) - Международная Федерация библиотечных ассоциаций и учреждений

В результате данной работы в 1984 г. под эгидой IFLA было опубликовано руководство по составлению нормативных и ссылочных записей2. А в 1992 г. было подготовлено и утверждено руководство по предметным нормативным и отсылочным записям3.

Развитие технологий и подходов к организации информационного поиска, а также переход к машиночитаемым библиографическим записям, привели к пересмотру российских правил каталогизации. Принципы каталогизации освещаются в работах Каспаровой H.H., Загорской Е.И. [70,71], Бахтуриной Т.А. [10-13], Дудник И.С. [28], Калининой Г.П. [30], Кулыгиной Н.Ю. [49], Масхулия Т.Л. [55,56], Экстрем М.В. [89] и др.

В данной работе используются библиографические записи в формате RUSMARC и авторитетные записи в формате RUSMARC/Authorities [73]. Выбор пал именно на формат RUSMARC благодаря тому, что он является коммуникативным форматом, предназначенным для обмена библиографической информацией. Кроме того, он достаточно широко распространен в российском библиотечном сообществе.

В настоящее время большинство крупных библиотечных каталогов (от 500 тысяч записей) формируется с применением технологии авторитетного контроля записей. Однако, несмотря на достаточно широкое использование авторитетного контроля и многолетнюю историю его развития, в библиотечном сообществе существуют расхождения в трактовании связанных с ним терминов.

Приведем определения терминов, используемые в настоящей работе. С подробным терминологическим анализом приводимых понятий можно ознакомиться в работе A.B. Муктепавел [60].

Авторитетный контроль представляет собой процесс поддержания единообразия форм авторитетных заголовков, определяющих одно и тоже лицо, организацию, предмет и так далее в библиографическом файле, контроль за адекватностью присвоения предметных рубрик и индексов библиотечно-библиографических классификаций документам, а также контроль за последова-

2Guidelines for subject authority and reference entries - GARE (англ.)

3Guidelines for subject authority and reference entries - GSARE (англ.)

тельным соблюдением принципов, методик, инструкций и правил по представлению поисковых признаков.

Авторитетный файл (АФ) - это перечень авторитетных записей. Основной элемент авторитетной записи (АЗ) - это авторитетный заголовок, то есть унифицированная формулировка (имени индивидуального или коллективного автора, предметной рубрики или индекса библиотечно-библиографической классификации). Авторитетный заголовок устанавливается организацией, осуществляющей каталогизацию. АФ представляет собой набор этих АЗ, представленных в машиночитаемой форме.

АЗ в АФ выполняют следующие функции [60]:

1. Идентификация понятия, имеющего различные варианты написания.

2. Принятие и установка в авторитетной форме одного из вариантов записи для использования в данном электронном каталоге.

3. Создание связей между библиографическими записями (с помощью ссылочно-справочного аппарата).

4. Упрощение процессов обработки документов в библиотеках.

5. Предоставление методических указаний по определению области применения данной записи.

6. Объяснение значения какого-либо выражения или предоставление о нем некоторой информации.

7. Определение круга источников информации по установлению значения данной формы.

Как правило, авторитетный контроль осуществляется следующим образом: при внесении в базу новой библиографической записи каталогизатор находит авторитетную запись, с которой необходимо установить связь и вносит в определенное поле библиографической записи соответствующий код АЗ. Далее будем называть его авторитетным кодом. Поле с авторитетным кодом выступает в качестве точки доступа, что позволяет легко находить все БЗ, связанные с конкретной

АЗ. Проще говоря, становится возможным найти все произведения конкретного автора, не включая в результат поиска произведения его однофамильцев. Кроме уточнения поиска авторитетные файлы позволяют унифицировать и ускорить ввод документов - нужные элементы описания берутся из АЗ, а не вводятся каждый раз заново [91].

Следует отметить, что создание отдельного авторитетного файла - трудоемкий и достаточно дорогой процесс требующий, как правило, привлечения дополнительной информации из множества источников и не до конца поддающийся автоматизации [43]. В данной работе не рассматривается задача автоматического формирования авторитетных записей. Предполагается, что записи, с которыми имеем дело, достаточно полны и содержат правильную информацию.

Однако и в этом случае возникает ряд проблем. Так, например, при создании новой АЗ необходимо связать его со всеми БЗ, уже хранящимися в базе данных, и связывание «вручную» может быть слишком трудоемким. Кроме того, в случае объединения двух и более библиотечных каталогов, неизбежно приходится сталкиваться со следующими проблемами:

- дублетные записи - две и более записи (как авторитетные, так и библиографические) на один источник из разных библиотек;

- записи на материалы одного и того же автора, содержат разные авторитетные коды (или совсем не содержат авторитетных кодов), как следствие того, что для каждого библиотечного каталога применяется свой набор авторитетных файлов.

Автоматическое связывание АЗ и БЗ можно рассматривать как частную задачу автоматизации библиотеки, поскольку она имеет непосредственное отношение к ведению электронного каталога, а также к созданию электронной библиотеки.

1.2 Автоматизация библиотек и авторитетный контроль

Автоматизация зарубежных библиотек началась приблизительно с начала 1960-х годов. В России к автоматизации и созданию электронных каталогов приступили только в 1990-е годы. Первоначально отечественная автоматизация библиотек заключалась в проектировании и эксплуатации региональных информационных систем, данная область представлена работами Елепова Б.С. [21], Боброва Л.К. [15], Каленова Н.Е. [29], Баженова С.Р. [20]. Построение и эксплуатация автоматизированных библиотечных систем рассматривалась в работах Шрайберга Я.Л. [87], Воройского Ф.С. [18], Маршака Б.И. [54], Бродовского А.И. [16].

Следующим этапом стало проектирование и создание распределенных информационных систем, которым посвящены работы Калиниченко Л.А. [31], Шо-кина Ю.И., Федотова А.М. [86], Жижимова О.Л. [23], Племнека А.И. [67,68], Колобова О.С. [44^46], МазоваН.А. [53].

Развитие информационных технологий, позволившее организовывать работу с полнотекстовыми документами, привело к созданию электронных библиотек. Принципы создания электронных библиотек, а также анализ опыта создания и эксплуатации полнотекстовых коллекций описываются в работах Воройского Ф.С. [18], Колосова К.А. [47,48], Антопольского А.Б. [3], Соколовой Н.В. [75], Земскова А. И. [27], Шрайберга Я.Л. [62], Жабко Е.Д. [22] и др.

Под автоматизацией библиотеки понимается комплекс научных, проектных, технических работ и организационных мероприятий по переводу процессов обработки и поиска информации в библиотеки на вычислительную технику. Основными целями автоматизации библиотек являются [18]:

- повышение качестве обслуживания читателей (пользователей), включая расширение состава оказываемых им услуг и предоставляемой литературы;

- создание более комфортных условий работы пользователей и персонала библиотеки;

- повышение доступности и сохранности фондов;

- освобождение сотрудников от рутинных работ, связанных с каталогизацией, подготовкой библиографических списков, заказов на литературу, писем, отчетной документации и т.п.

В данной работе принята терминология, предложенная Ф.С. Воройским [18]. Под автоматизированной информационной системой (АИС)4 в рамках данной работы понимается комплекс программных, технических, информационных, лингвистических, организационно-технологических средств и персонала, предназначенный для сбора, первичной обработки, хранения, поиска, вторичной обработки и выдачи данных в заданной форме или виде для решения разнородных профессиональных задач пользователей системы [18].

Похожие диссертационные работы по специальности «Информационные системы и процессы, правовые аспекты информатики», 05.25.05 шифр ВАК

Список литературы диссертационного исследования кандидат наук Князева, Анна Анатольевна, 2014 год

Список литературы

[1] Айвазян С. А. Классификация многомерных наблюдений / С. А. Айвазян, 3. И. Бежаева, О. В. Староверов. - М. : Статистика, 1974. - 240 с.

[2] Антопольский А. Б. Принципы разработки интегрированной системы для научных библиотек, архивов и музеев / А. Б. Антопольский,

А. А. Каленкова, Н. Е. Каленов, В. А. Серебряков, А. Сотников // Информационные ресурсы России. - 2012. - №1. - С. 2-7.

[3] Антопольский А. Б. Правовые и технологические проблемы создания и функционирования электронных библиотек / А. Б. Антопольский,

Е. А. Данилина, Т. С. Маркарова. - М. : ПАТЕНТ, 2008. - 207 с.

[4] Арме В. Электронные библиотеки / В. Арме. - М. : ВИНИТИ, 2002. - 275 с.

[5] Архипов Д. А. Библиотечно-функциональный анализ отечественных автоматизированных библиотечно-информационных систем : автореф. дис. ... канд. пед. наук : 05.25.03 / Архипов Дмитрий Анатольевич. -М., 2008. - 16 с.

[6] Атаева О. М. Методы очистки интегрируемых данных / О. М. Атаева, Л. Н. Шиолашвили // Современные проблемы фундаментальных и прикладных наук : Труды ХЫХ научной конференции. - М. : МФТИ, 2006. - С. 243-244.

[7] Афифи А. Статистический анализ. Подход с использованием ЭВМ / А. Афифи, С. Эйзенс. - М. : Мир, 1982. - 488 с.

[8] Байтингер Г. А. Заголовки индивидуальных и коллективных авторов и персоналий в авторитетных/нормативных записях как средство повышения

доступности информации в электронном каталоге научной библиотеки ТГУ : (на примере авторов-томичей) / Г. А. Байтингер, О. А. Дубовицкая, Ж. В. Васильева // Научная библиотека в системе классического университета : материалы VII науч.-практ. конф., посвящ. 125-летию начала формирования кн. фонда Науч. б-ки Том. гос. ун-та, 4-5 окт. 2005 г. / Том. гос. ун-т, Науч. б-ка. - Томск : Изд-во ТГУ, 2006. - С. 150-159.

[9] Барахнин В. Б. О задании меры сходства для кластеризации текстовых документов / В. Б. Барахнин, В. А. Нехаева, А. М. Федотов // Вестн. НГУ. Сер. : Информ. технологии. - 2008. - Т. 6, вып. 1. - С. 3-9.

[10] Бахтурина Т. А. Будущее каталогизации в России и в мире /

Т. А. Бахтурина // Научные и технические библиотеки. - 2010. - № 9. -С. 34-44.

[11] Бахтурина Т. А. Создание новых международных правил "Описание ресурса и доступ к нему-: проблемы их решения. К пересмотру Англо-американских правил каталогизации / Т. А. Бахтурина // Научные и технические библиотеки. -2006. - № 8. - С. 35-47.

[12] Бахтурина Т. А. Структура и объект библиографической записи [Текст] : пунктуация / Т. А. Бахтурина // БИБЛИОТЕКА. - 2004. - № 3. - С. 48-50.

[13] Бахтурина Т. А. Терминология современных международных принципов каталогизации / Т. А. Бахтурина // Научные и технические библиотеки. -2004. - № 5. - С. 27-40.

[14] Бахтурина Т. А. Исследование ИФЛА "Функциональные требования к библиографическим записям"и его влияние на современную каталогизационную терминологию [Текст] / Т.А. Бахтурина // Науч. и техн. б-ки. - 1999. - № 11. - С. 17-28.

[15] Бобров Л. К. Создание проблемно-ориентированных информационных центров как стратегическое направление работ по развитию информационного обеспечения научных исследований / Л. К. Бобров //

Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества : 4-я междунар. конф. "Крым 97 Судак, Авт. Респ. Крым, Украина, 7-15 июня 1997: Материалы конф.: [В 2 т.]. - М., 1997. -С. 247-249.

[16] Бродовский А. И. Программные средства, расширяющие возможности ППП CDS/ISIS и их применение для автоматизации библиотечно-информационных процессов в ГПНТБ России // Научные и технические библиотеки. - М. : ГПНТБ, 1995. - №2. - С. 24-34.

[17] Букина Е. С. Авторитетность - не только характеристика человека / Е. С. Букина // Соврем, б-ка. - 2011. - № 2. - С. 92-95.

[18] Воройский Ф. С. Основы проектирования автоматизированных библиотечно-информационных систем / Ф. С. Воройский. - М. : Физматлит, 2008. - 456 с.

[19] Гнеденко Б. В. Курс теории вероятностей : учеб. - 6-е изд., перераб. и доп. / Б. В. Гнеденко. - М.: Наука, 1988. - 448 с.

[20] Елепов Б. С. Современные информационные технологии в крупной библиотеке / Б. С. Елепов, С. Р. Баженов, Н. А. Мазов // Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества : Материалы 7-й Междунар. конф. "Крым 2000"(Судак, Авт. Респ. Крым, Украина, 3-11 июня 2000 г.). - М., 2000. - Т. 1. -

С. 171-173.

[21] Елепов Б. С. Управление процессами использования информационных ресурсов / Б. С. Елепов, В. М. Чистяков. - Новосибирск: Наука Сиб. отд-ние, 1989. - 235 с.

[22] Жабко Е. Д. Справочно-библиографическое обслуживание в электронной среде : теория и практика : монография / Е. Д. Жабко ; Российская национальная библиотека. - СПб. : Изд-во РНБ, 2006. - 388 с.

[23] Жижимов О. JT. Принципы построения распределенных информационных систем на основе протокола Z39.50 / О. JT. Жижимов, Н. А. Мазов -ОИГГМ СО РАН, Новосибирск : Изд-во ИВТ СО РАН, 2004. - 361 с.

[24] Загоруйко Н. Г. Прикладные методы анализа данных и знаний /

Н. Г. Загоруйко. - Новосибирск : Изд-во ИМ СО РАН, 1999. - 270 с.

[25] Проверка на дублетность [Электронный ресурс] / Чудин А. - [Россия]. -URL: http://www.bookresearch.m/gcBiblioHashCode.htm, свободный. - Загл. с тит. экрана (дата обращения: 09.01.2014).

[26] Закс JI. Статистическое оценивание / JI. Закс. - М.: Статистика, 1976. -599 с.

[27] Земсков А. И. Электронные библиотеки / А. И. Земсков, Я. Л. Шрайберг. -2-е изд., испр. и доп. - М. : ГПНТБ, 2004. - 120 с.

[28] Имена авторов особых категорий в заголовке библиографической записи : методические рекомендации / Российская государственная библиотека (РГБ) ; сост. И. С. Дудник, Н. Ю. Кулыгина, Н. С. Степанова,

Т. Б. Лобанова ; под ред. Т. А. Бахтурина, Н. Н. Каспарова. - М. : Российская гос. библиотека, 1996. - 39 с. - ISBN 5-7510-0106-0.

[29] Каленов Н. Е. Электронные каталоги, MARC-формат и автоматизация библиотечной технологии // Применение ЭВМ в

информационно-библиотечной технологии : Сб. науч. тр. - М. : Б-ка по естественным наукам РАН, 1995. - С. 3-10.

[30] Калинина Г. П. Формирование заголовка библиографической записи. Имя лица в заголовке / Г. П. Калинина // Библиотека. -2004. № 8. - С. 37-42.

[31] Калиниченко Л. А. Методология организации решения задач над множественными распределенными неоднородными источниками информации. Сборник трудов Международной конференции «Современные информационные технологии и ИТ-образование». - М. : МГУ, 2005. - С. 20-37.

[32] Каримов Р. Н. Основы дискриминантного анализа : учеб.-метод. пособие / Р. Н. Каримов. - Саратов : СГТУ, 2002. - 108 с.

[33] Ким Дж.-О. Факторный, дискриминантный и кластерный анализ / Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка. - М. : Финансы и статистика, 1989.-215 с.

[34] Князева А. А. Автоматический авторитетный контроль для распределенных библиографических баз данных [Электронный ресурс] / А. А. Князева, И. Ю. Турчановский, О. С. Колобов // XIII Рос. конф. с участием иностр. учен. «Распределенные информационные и вычислительные ресурсы» (DICR'2010), Новосибирск, 30 нояб.-4 дек. 2010 г. : материалы конф. - Новосибирск : ИВТ СО РАН, 1996-2013. -URL: http://conf.nsc.ru/dicr2010/ru/reportview/29244, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

[35] Князева А. А. Автоматический авторитетный контроль [Электронный ресурс] : [доклад на конференции "Корпоративные информационно-библиотечные системы: технологии и инновации"(11; 2013; Санкт-Петербург)] / А. А. Князева, О. С. Колобов. - Электрон, текстовые дан. (1 файл : 229 Кб). - Санкт-Петербург, 2013. - Доклад опубликован на электрон.-опт. диске с материалами конференции (локальный шифр CD-670). - Свободный доступ из сети Интернет (чтение, печать, копирование). - Adobe Acrobat Reader 7.0. - <URL : http://dl.unilib.neva.ni/dl/2/3280.pdf>.

[36] Князева А. А. Автоматическое связывание документов / А. А. Князева, И. Ю.Турчановский, О. С. Колобов // Электронные библиотеки : перспективные методы и технологии, электронные коллекции (RCDL'2012) : тр. XIV Всерос. науч. конф., Переславль-Залесский, 15-18 окт. 2012 г. - Переславль-Залесский : Изд-во «Университет города Переславля», 2012. - С. 360-369.

[37] Князева А. А. Автоматическое связывание структурированных документов [Электронный ресурс] / А. А. Князева, И. Ю. Турчановский,

О. С. Колобов // Материаловедение, технологии и экология в 3-м тысячелетии : сб. докл. V Всерос. конф. молод, учен. / Ин-т оптики атмосферы СО РАН. - Электрон, текст, дан. - Томск : ИОА СО РАН, 2012. - [С. 9-12]. - 1 электрон, опт. диск (CD-ROM). - № гос. регистрации 0321300235.

[38] Князева A.A. Восстановление связей между библиографическими записями [Электронный ресурс] / А. А. Князева, О. С. Колобов // Междунар. конф. «Современные проблемы математики, информатики и биоинформатики», посвящ. 100-летию со дня рождения чл.-кор. АН СССР А. А. Ляпунова, Новосибирск, 11-14 окт. 2011 г. : материалы конф. -Новосибирск : ИВТ СО РАН, 1996-2013. - URL: http://conf.nsc.ru/Lyap-100/reportview/74497, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

[39] Князева А. А. Выявление дубликатов в библиографических базах данных / А. А. Князева, И. Ю.Турчановский, О. С. Колобов // Электронные библиотеки : перспективные методы и технологии, электронные коллекции (RCDL'2013) : тр. XV Всерос. науч. конф., Ярославль, 14-17 окт. 2013 г. -Ярославль : ЯрГУ, 2013. - С. 276-282.

[40] Князева А. А. Наличие информации для связывания на примере базы данных «MedArt» [Электронный ресурс] / А. А. Князева, О. С. Колобов, И. Ю. Турчановский // XIV Рос. конф. с междунар. участием «Распределенные информационные и вычислительные ресурсы» (DICR-2012), Новосибирск, 26-30 нояб. 2012 г. : материалы конф. -Новосибирск ИВТ СО РАН, 1996-2013. - URL:

http://conf.nsc.ru/dicr2012/ru/reportview/139662, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

[41] Князева А. А. Ранжированный поиск в библиографических базах данных / А. А.Князева [и др.] // Вестн. НГУ. Сер. : Информ. технологии. - 2009. -

Т. 7, вып. 4. - С. 81-96.

[42] Князева А. А. Принципы идентификации объектов в структурированных документах / А. А. Князева // Вестн. НГУ. Сер. : Информ. технологии. -2013.-Т. 11, вып. 1.-С. 58-67.

[43] Ковалёва А. М. Авторитетный файл «Имя лица» / А. М. Ковалёва // Библиотечное краеведение в информационном пространстве региона : материалы межрегион, науч.-практ. конф., Барнаул, 26-27 февр. 2008 г. -Барнаул : РИО АКУНБ, 2008. - С. 172-178.

[44] Колобов О. С. Исследование принципов организации, функционирования и разработка распределенного электронного каталога библиотечного консорциума : дис. ... канд. техн. наук : 05.25.05 / Колобов Олег Сергеевич. - Новосибирск, 2007. - 130 с.

[45] Колобов О. С. Представление тезауруса Ме8Н в формате РШ8МА11С посредством протокола 239.50 / О. С. Колобов, Н. А. Мешечак,

А. С. Карауш // Научные и технические библиотеки. - М. : ГПНТБ, 2005. -№ 1.-С. 92-95.

[46] Колобов О. С. Широковещательный поиск-извлечение данных на основе протокола 8БШ как средство интеграции разнородных ресурсов /

О. С. Колобов [и др.] // Корпоративные библиотечные системы: технологии и инновации : труды IV научно-практической конференции АРБИКОН, 2 июля-7 июля 2006 г. / Ассоциация региональных библиотечных консорциумов (АРБИКОН). - СПб., 2006. - С. 160-164. -(Круглый стол: "Корпоративные технологии: программное обеспечение для модернизации библиотечных процессов").

[47] Колосов К. А. Новые возможности на основе протокола 239.50 для пользователей ИРБИС [Текст] / Колосов К. А. // Научные и технические библиотеки. - 2005. - № 2. - С. 133-135.

[48] Колосов К. А. Решения Системы автоматизации библиотек ИРБИС для региональных порталов государственных и муниципальных услуг [Текст] /

К. А. Колосов // Научные и технические библиотеки. - 2012. - № 11.-С. 61-66.

[49] Кулыгина Н. Ю. Авторы особых категорий в заголовке библиографической записи / Н. Ю. Кулыгина // Библиотека. - 2004. -№ 10. - С. 30-33.

[50] Лаврёнова О. А. Методы формирования многоязычного нормативного/авторитетного файла географических названий /

О. А. Лаврёнова // Научные и технические библиотеки. - М. : ГПНТБ, 2009. -№3. - С. 22-30.

[51] Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов / В. И. Левенштейн // Докл. Акад. наук СССР. -1965. - Т. 163, № 4. - С. 845-848.

[52] Мазов H.A. Новые методы формирования публикационного профиля научной организации в сети науки / Н. А. Мазов, В. Н. Гуреев // Науч. и техн. б-ки. - 2013. - № 12. - С. 42-48.

[53] Мазов Н. А. Применение протокола Z39.50 для работы с тезаурусами и классификационными схемами / Н. А. Мазов, О. Л. Жижимов // Библиотеки и ассоциации в меняющемся мире : новые технологии и новые формы сотрудничества : 7-я международная конференция "Крым-2000-: Материалы конференции. - 2000. - Т. 1. - С. 402-405.

[54] Маршак Б. И. Направления развития программного обеспечения и технического комплекса при автоматизации библиотечно-информационных процессов ГПНТБ России [Текст] / Б. И. Маршак // Научные и технические библиотеки. - М. : ГПНТБ, 1997. - № 1. - С. 69-72.

[55] Масхулия Т. Л. Заголовок, содержащий наименование организации / Т. А. Масхулия // Библиотека. - 2004. -№ 9. -С. 31-32.

[56] Масхулия Т. Л. Проблемы создания и ведения национальных авторитетных файлов / Т. Л. Масхулия, Ю. Г. Селиванова // Библиотечные компьютерные сети: Россия и Запад. - М. : Либерия, 2003. - Вып. 2. - С. 47-53.

[57] Мешечак Н. А. Модель комплексного доступа к медицинским информационным ресурсам / Н. А. Мешечак, JI. А. Шамардина,

О. С. Колобов, М. В. Терехова // Недра Кузбасса. Инновации : тр. 5 Всерос. науч.-практ. конф., Кемерово, 29-31 янв. 2006 г. - Кемерово : ИНТ, 2006. - С. 223-225.

[58] Мешечак Н. А. Опыт создания и использования авторитетных записей на томских ученых-медиков в научно-медицинской библиотеке Сибирского медицинского университета / Н. А. Мешечак, JI. А. Шамардина,

А. С. Карауш // Современные пользователи автоматизированных информационно-библиотечных систем: проблемы обслуживания, изучения и обучения : материалы 6-й и 7-й науч.-практ. конф. - СПб. : РБА, 2006. -С. 158-161.

[59] Мешечак Н. А. Web-справочник «Медики России» [Электронный ресурс] / Н. А. Мешечак, О. С. Колобов, Ф. Е. Татарский // Информационные технологии, компьютерные системы и издательская продукция для библиотек : материалы конф. LIBCOM-2007. - Электрон, текст, дан. - М. : ГПНТБ России, 2007. - 1 электрон, опт. диск (CD-ROM). - Загл. с этикетки диска. - № гос. регистрации 0320702219.

[60] Муктепавел А. В. Авторитетные файлы предметных рубрик в условиях автоматизированной каталогизации: проблемы создания и ведения : дис. ... канд. пед. наук : 05.25.03 / Муктепавел Айна Вольдемаровна. -М, 1999. - 179 с.

[61] Неелова Н. В. Предварительная обработка строк при критическом коэффициенте Джаккарда для улучшения вычисления схожести веб-документа / Н. В. Неелова // II Всерос. конф. с междунар. участием «Знания - Онтологии - Теории» (30HT-09), Новосибирск, 22-24 окт. 2009 г. : материалы конф. - Новосибирск : Изд-во ИМ СО РАН, 2009. - Т. 2. -С. 20-27.

[62] Открытый доступ : зарубежный и отечественный опыт - состояние и перспективы [Текст] / Я. Л. Шрайберг [и др.] // Научные и технические библиотеки. - 2012. - № 8. - С. 5-26.

[63] Отле П. Библиотека, библиография, документация [Текст] : Избранные труды пионера информатики / ПольОтле. - Москва: ФАИР-ПРЕСС: Пашков Дом, 2004. - 348, [1] с. - (Специальный издательский проект для библиотек). - Библиогр.: с. 312-327. - Имен, указ.: с. 340-342. - ISBN 5-8183-0624-0 (в пер.).

[64] Отле П. Труды по библиотековедению. Руководство для общественных библиотек. Организация умственного труда. Руководство к администрированию [Текст] : Практ. пособие / Поль Отле; [Вступ. ст. и науч. ред. Ю. Н. Столярова]. - Москва : Либерея, 2002. - 227 с. : табл. -ISBN 5-85129-148-6.

[65] Пачуев К. Е. Организация Z39.50 - ресурсов Томского консорциума "Открытая электронная библиотека" [Текст] / К. Е. Пачуев,

Ф. Е. Татарский, О. С. Колобов // Научные и технические библиотеки. -2004. -№3. - С. 60-65.

[66] Пинжин А. Е. Применение вероятностного алгоритма соединения записей для исключения дублирования информации в корпоративной базе данных / А. Е. Пинжин // Известия Томского политехнического университета [Известия ТПУ]. - Томск : Томский политехнический университет (ТПУ), 2006.-Т. 309, №7.-С. 111-116.

[67] Племнек А. И. Проекты АРБИКОН - первые итоги [Электронный ресурс] / А. И. Племнек. - Электрон, текстовые дан. (1 файл : 1,01 Мб) // Университетская книга = Universitas : ежемесячный журнал. - М., 2007. -№ 6(127). - (Юбилеи). - Загл. с титул, экрана. - Электрон, версия печ. публикации. - Свободный доступ из сети Интернет. - Adobe Acrobat Reader 6.0.

[68] Племнек А. И. Центр "Открытые Библиотечные Системы-: опыт разработки корпоративной библиотечной системы регионального уровня [Текст] / А. И. Племнек, Н. В. Соколова // Информационный бюллетень Российской библиотечной ассоциации. - 1999. - № 15. - С. 246-255.

[69] Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста : дис. ... канд. техн. наук : 05.13.18 / Романов Александр Сергеевич. - Томск, 2010.- 149 с.

[70] Российские правила каталогизации : в 2 ч. Ч. 1 : Основные положения и правила / ред. Н. Н. Каспарова, Е. И. Загорская ; Рос. библ. ассоц., РГБ. -Москва : Пашков дом, 2008. - 243 с. - ISBN 5-7510-0441-5.

[71] Российские правила каталогизации : в 2 ч. Ч. 2 : Специальные правила каталогизации отдельных видов документов / ред. Н. Н. Каспарова,

Е. И. Загорская ; Рос. библ. ассоц., РГБ. - Москва : Пашков дом, 2008. -419 с. - ISBN 5-7510-0443-9.

[72] Российский индекс научного цитирования [Электронный ресурс] // Научная электронная библиотека eLIBRARY.RU : [сайт]. - ООО Научная электронная библиотека, 2000-2014. - URL: http:

//elibrary.ru/project_risc.asp, свободный. - Загл. с экрана (дата обращения: 10.03.2014).

[73] Российский коммуникативный формат (RUSMARC) [Электронный ресурс] : [сайт] / Мин-во культуры Рос. Федерации, Рос. библ. ассоц., Нац. Служба развития системы форматов RUSMARC. - [СПб., 2012]. - URL: http://www.rusmarc.ru/index.html, свободный. - Загл. с экрана (дата обращения: 04.06.2013).

[74] Рубцов Д. Н. Выявление дубликатов в разнородных библиографических источниках / Д. Н. Рубцов, В. Б. Барахнин // Вестн. НГУ. Сер. : Информ. технологии. - 2009. - Т. 7, вып. 3. - С. 86-93.

[75] Соколова Н. В. Электронные библиотеки как факт современного информационного ландшафта (Вузовские библиотеки) // Универс. кн. -2010. - № 2. - С. 62-66.

[76] Тарасов С. Как избавиться от дубликатов в базе данных [Мультимедиа] / С. Тарасов // Мир ПК + CD : журнал для пользователей персональных компьютеров. - 2007. - № 11. - С. 52-55.

[77] Ту Д. Принципы распознавания образов / Д. Ту, Р. Гонсалес. - М. : Мир, 1978.-411 с.

[78] Умаров А. С. Некоторые аспекты создания информационных систем для сбора и хранения научной и наукометрической информации / A.C. Умаров, Н.В. Попова, В.А. Зелепухина // Прикаспийский журнал : управление и высокие технологии. - Астрахань : Издательский дом АГУ, 2013. - № 3 (23).-С. 111-118.

[79] Федотов А. М. Проблемы авторитетного контроля для распределенных электронных библиотек и библиографических баз / А. М. Федотов,

О. Л. Жижимов, А. А. Князева [и др.] // Вестн. НГУ. Сер. : Информ. технологии. - 2011. - Т. 9, вып. 1. - С. 89-101.

[80] Федотов А. М., Барахнин В. Б. Проблемы поиска информации: история и технологии // Вестник НГУ. Сер.: Информационные технологии. -2009. Т. 7.-Вып. 2.-С. 3-17.

[81] Федотов А. М. К вопросу о поиске документов по аналогии / А. М. Федотов, В. Б. Барахнин // Вестн. НГУ. Сер. : Информ. технологии. -2008.-Т. 7, вып. 4.-С. 3-14.

[82] Функциональные требования к авторитетным данным : концептуальная модель : заключительный отчет, декабрь 2008 / под ред. Гленна Е. Патона ; Рабочая группа ИФЛА по разработке функциональных требований к авторитетным записям и их нумерации (FRANAR) ; одобрено Постоянными комитетами Секции по каталогизации и Секции по

классификации и индексированию ИФЛА, март 2009 ; Междунар. федерация библ. ассоц. и учреждений, Рос. библ. ассоц. ; [пер. с англ. O.A. Лаврёнова ]. - Санкт-Петербург : Российская национальная библиотека, 2011. - 115 с. : илл., граф.

[83] Функциональные требования к библиографическим записям : окончат, отчет : пер. с англ. / Рос. библ. ассоц. [и др.]. - М. : Пашков дом, 2008. -165 с.

[84] Цыганов Н. Л. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя / Н. Л. Цыганов, М. А. Циканин // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску. - Екатеринбург : Изд-во Урал, ун-та, 2007. -

С. 211-222.

[85] Шипунов А. Б. Наглядная статистика. Используем R! / А. Б. Шипунов [и др.] - М. : ДМК Пресс, 2012. - 298 с.

[86] Шокин Ю. И., Федотов А. М. Распределенные информационные системы // Вычислительные технологии. - 1998. - Т. 3. - № 5. -С. 79-93.

[87] Шрайберг Я. Л. Автоматизированные библиотечно-информационные системы России: состояние, выбор, внедрение, развитие / Я. Л. Шрайберг, Ф. С. Воройский. - М. : Либерея, 1996. - 273 с.

[88] Шрайберг Я. Л. Современные тенденции развития библиотечно-информационных технологий : Ежегодный Пленарный Доклад Международных Конференций "Крым 2001 год / Я. Л. Шрайберг. -2002. - 44 с.

[89] Экстрем М. В. О возможности использования сети европейских авторитетных данных : по результатам тестирования программы "Автор"[Текст] / М. В. Экстрем, Т. Л. Масхулия // Библиотечные компьютерные сети : Россия и Запад. - Москва, 1998. - С. 187-190.

[90] Электронный каталог научно-медицинской библиотеки СибГМУ [Электронный ресурс] // Научно-медицинская библиотека СибГМУ : [сайт]. - [Томск] : Науч.-мед. б-ка СибГМУ, 2001-2009. - URL: http://opac.medlib.tomsk.ru, свободный. - Загл. с экрана (дата обращения: 04.06.2013).

[91] Юрченко Я. Г. Авторитетный контроль как важнейший элемент интеграции [Электронный ресурс] /Я. Г. Юрченко // Фонды и каталоги Кузбасса. Опыт. Проблемы. Решения : науч.-практ. сб. - Кемерово : [Кемер. обл. науч. б-ка им. В. Д. Федорова], 2003. - Вып. 2. - URL: http://www.kemrsl.ni/documents/founds/vip2/vip2.5.htm, свободный. - Загл. с экрана (дата обращения: 04.06.2013).

[92] Bachteler Т. Merge ToolBox - МТВ. Getting Started [Electronic resource] : record linkage software / T. Bachteler ; German record linkage center. -Vers. 0.74. - Duisburg : [RLC], 2012 (May, 25). - 12 [3] p. - URL: http://www.uni-due.de/ hq0215/documents/mtb_gettingstarted.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

[93] Bartolini I. String matching with metric trees using an approximate distance / I. Bartolini, P. Ciaccia, M. Patella // String processing and information retrieval (SPIRE- 2002) : 9th Int. symp., Lisbon, Portugal, Sept. 11-13, 2002 : proc. -Berlin [et al.] : Springer, 2002. - P. 271-283. - (Lecture notes in computer science ; vol. 2476).

[94] Baxter R. A Comparison of fast blocking methods for record linkage / R. Baxter, P. Christen, T. Churches // Proc. ACM SIGKDD - 2003 workshop on data cleaning, record linkage, and object consolidation, Washington,

Aug. 24-27, 2003. - N. Y. : ACM Press, 2003. - Vol. 3. - P. 25-27.

[95] Belin T. R. A method for calibrating false-match rates in record linkage / T. R. Belin, D. B. Rubin // Ibid. - 1995. - Vol. 90, №430. - P. 694-707.

[96] Bennett R. VIAF (Virtual international authority file): linking the Deutsche Nationalbibliothek and Library of Congress name authority files / R. Bennett

[et al.] // Int. cataloging and bibliographic control. - 2007. - Vol. 36, № 1. -P. 12-19.

[97] Bilenko M. Learnable similarity functions and their application to record linkage and clustering [Electronic resource] : diss. ... for the degree of DPh / Mikhail Yuryevich Bilenko ; Univ. of Texas. - Austin, 2006. - 136 p. - The electronic version of print, publ. - Access from ProQuest Dissertations and Theses. - Title from the screen.

[98] Borkar V. Automatic segmentation of text into structured records / V. Borkar, K. Deshmukh, S. Sarawagi // SIGMOD'Ol : proc. 2001 ACM SIGMOD int. conf. management of data, Santa Barbara, Calif., 2001. - N. Y. : ACM, 2001. -P. 175-186.

[99] Christen P. Febrl - freely extensible biomedical record linkage [Electronic resource] : release 0.3.1, July 1, 2005 / P. Christen, T. Churches // Austral, nat. univ. (ANU), Research school of computer sci. : [site]. - Canberra : ANU, 2013. - URL: http://cs.anu.edu.au/ Peter.Christen/Febrl/febrl-0.3/febrldoc-0.3, free. - Tit. from the screen (usage date: 04.06.2013).

[100] Christen P. Probabilistic name and address cleaning and standardisation [Electronic resource] / P. Christen, T. Churches, J. X. Zhu // Proc. 1st Australasian data mining workshop (ADM'02), Canberra, Australia, Dec 3, 2002 : in conjunction with the 15th Austral, joint conf. on artificial intelligence, Canberra, Australia, Dec. 2-6, 2002. - Sydney : Univ. of technol., 2002. -

P. 99-108. - URL:

http://www.togaware.com/ausdm02/program/ausdm02_proceedings.pdf, free. -Tit. from the screen (usage date: 04.06.2013).

[101] Cilibrasi R. Clustering by compression / R. Cilibrasi, P. M. B. Vitanyi // IEEE, trans, on inf. theory - 2005. - Vol. 51, № 4. - P. 1523-1545.

[102] Cohen W. Data integration using similarity joins and a word-based information representation language / W. Cohen // ACM trans, inf. syst. - 2000. - Vol. 18, №3.-P. 288-321.

[103] Cohen W. Learning to match and cluster large high-dimensional data sets for data integration / W. Cohen, J. Richman // Proc. 8th ACM SIGKDD int. conf. on knowledge discovery and data mining (KDD-2002), Edmonton, Alberta, Canada, July 23-26, 2002. - N. Y. : ACM, 2002. - P. 475-480.

[104] Elfeky M. G. TAILOR: a record linkage tool box / M. G. Elfeky, A. K. Elmagarmid, V. S. Verykios // Proc. 18th Int. conf. on data eng. (ICDE 02), San Jose, CA, USA, 26 Febr.-l March, 2002. - Washington : IEEE Computer Soc., 2002. - P. 17-28.

[105] Fair M. Generalized record linkage system-Statistics Canada's record linkage software // Austr. j. stat. - 2004 - Vol. 33, № 1-2. - P. 37-53.

[106] Fellegi I. P. A theory for record linkage / I. P. Fellegi, A. B. Sunter // J. Amer. stat. assoc. - 1969. - Vol. 64, №328. - P. 1183-1210.

[107] Gill L. E. OX-LINK: the Oxford medical record linkage system / L. E. Gill // Record linkage techniques-1997 : proc. Int. workshop and exposition. -Washington : Nat. acad. press, 1999. - P. 15-33.

[108] Gravano L. Approximate string joins in a database (almost) for free /

L. Gravano [et al.] // Proc. 27th Int. conf. very large data bases (VLDB-2001), Roma, Italy, Sept. 11-14, 2001. - San Francisco : Morgan Kaufmann, 2001. -P. 491-500. - URL: http://www.vldb.org/conf/2001/P491.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

[109] Hernández M. A. Real-world data is dirty: data cleansing and the merge/purge problem / M. A. Hernandez, S. J. Stolfo // J. data mining and knowledge discovery. - 1998. - Vol. 2, iss. 1. - P. 9-37.

[110] Hernández M. A. The merge/purge problem for large databases /

M. A. Hernández, S. J. Stolfo // ACM SIGMOD Record. - 1995. - T. 24, №2.-C. 127-138.

[111] Hylton J. A. Identifying and merging related bibliographic records : [Electronic resource] : thes. submitted ... for the degrees of MENG in EECS

and BS CSE / Jeremy A. Hylton ; Mass. Inst, of Technology (MIT), Dept. of electrical eng. and computer sei. - [Cambridge, MA : MIT], 1996. - 99 p. -(MIT-LCS-TR-678). - URL:

http://publications.csail.mit.edu/lcs/pubs/pdf/MIT-LCS-TR-678.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

[112] Jaro M. A. Advances in record-linkage methodology as applied to matching the 1985 census of Tampa, Florida / M. A. Jaro // J. Amer. stat. assoc. - 1989. -Vol. 84, № 406. - P. 414-420.

[113] Jaro M. A. Probabilistic linkage of large public health data files /M. A. Jaro // Statistics in medicine. - 1995. - Vol. 14. - P. 491^98.

[114] Jurczyk P. FRIL: a tool for comparative record linkage [Electronic resource] / P. Jurczyk [et al.] // AMIA : Annu. symp. proc. / Amer. med. informatics assoc. (AMIA). - [Bethesda] : AMIA, 2008. - Vol. 2008. - P. 440^144. - URL: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2656092/pdf/amia-0440-s2008.pdf, free. - Tit. from the screen (usage date:

04.06.2013).

[115] Keogh E. Towards parameter-free data mining / E. Keogh, S. Lonardi,

C. A. Ratanamahatana // Proc. 9th ACM SIGKDD int. conf. on knowledge discovery and data mining (KDD-2004), Seattle, Washington, USA, Aug. 22-25, 2004. - N. Y. : ACM, 2004. - P. 206-215.

[116] Mahalanobis P. C. On the generalised distance in statistics /

P. C. Mahalanobis // Proc. Nat. inst. of sei. of India. - 1936. - Vol. 2, № 1. -P. 49-55.

[117] Manning C. D. Introduction to Information Retrieval [Electronic resource] / C. D. Manning, P. Raghavan, H. Schütze - Cambridge, 2009-2011. - URL: http://www-nlp.stanford.edu/IR-book/, free. - Tit. from the screen (usage date: 04.06.2013).

[118] McLeod A. I. Kendall: Kendall rank correlation and Mann-Kendall trend test [Electronic resource] : R-package vers. 2.2 / A. I. McLeod // The

comprehensive R-archive network [site]. - [s. 1.], 2011. -URL:http://cran.r-project.org/web/packages/Kendall/index.html, free. - Tit. from the screen (usage date: 04.06.2013).

[119] Medical subject headings (MeSH) [Electronic resource] : [site] / U.S. National library of medicine - Bethesda : [NLM], 1999-2013. - URL : http://www.nlm.nih.gov/mesh, free. - Tit. from the screen (usage date: 04.06.2013).

[120] Moen W. TheANSI/NISO Z39.50 Protocol: information retrieval in the information infrastructure [Electronic resource] / William Moen // Coalition for networked information (CNI) : [site]. - [Washington : CNI, 2013]. - URL : http://old.cni.org/pub/niso/docs/z39.50-brochure, free. - Tit. from the screen (usage date: 04.06.2013).

[121] Monge A. E. The field matching problem: Algorithms and applications /

A. E. Monge, C. P. Elkan // Proc. 2nd Int. conf. on knowledge discovery and data mining (KDD-96), Portland, OR, USA, Aug 2-4, 1996. - Portland : AAAI Press, 1996. - P. 267-270.

[122] Navarro G. Indexing methods for approximate string matching / G. Navarro [et al.] // Bull. Tech. committee on data eng. / IEEE computer soc. - 2001. -Vol. 24, №4.-P. 19-27.

[123] Needleman S. B. A general method applicable to the search for similarities in the amino acid sequences of two proteins / S. B. Needleman, C. D. Wunsch // J. mol. biol. - 1970. - Vol. 48, № 3. - P. 443-453.

[124] Neely M. P. Data quality tools for data warehousing: a small sample survey /M. P. Neely // Proc. 3rd Conf. on information quality (IQ 1998) / MIT Sloan School of management, Cambridge, MA, 1998. - Cambridge : MIT, 1998. - P. 310-320.

[125] Newcombe H.B. Automatic linkage of vital records / H. B. Newcombe [et al.] // Science. New series. - 1959. - Vol. 130, №3381. - P. 954-959.

[126] Porter M. F. An algorithm for suffix stripping / M. F. Porter // Program: electronic library and information systems. - 1980. - Vol. 14, № 3. - P. 130-137.

[127] Ristad E. S. Learning string edit distance / E. S. Ristad, P. N. Yianilos // IEEE trans, pattern analysis and machine intelligence. - 1998. - Vol. 20, № 5. -

P. 522-532.

[128] Sarawagi S. Interactive deduplication using active learning / S. Sarawagi, A. Bhamidipat // Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. - P. 269-278.

[129] Scopus [Электронный ресурс] // Elsevier B.V. : [сайт]. - Elsevier B.V., 2014. - URL: http://www.elsevier.com/online-tools/scopus, свободный. - Загл. с экрана (дата обращения: 10.03.2014).

[130] Smith Т. F. Identification of common molecular subsequence / Т. F. Smith, M. S. Waterman // J. mol. biol. - 1981. - Vol. 147, № 1. - P. 195-197.

[131] Snowball [Electronic resource] : [offic. site] / Dr. Martin Porter - Cambridge, 2001-2012. - URL : http://snowball.tartarus.org/, free. - Tit. from the screen (usage date: 04.06.2013).

[132] StatSoft [Электронный ресурс] : электрон, учеб. по статистике. - М. : StatSoft, Inc., 2004 - 2013. - URL:

http://www.statsoft.ru/home/textbook/default.htm, свободный. - Загл. с тит. экрана (дата обращения: 04.06.2013).

[133] Talburt J. Entity resolution and information quality / John R. Talburt. - San Francisco : Morgan Kaufmann/Elsevier, 2011. - 256 p.

[134] Tejada S. Learning domain-independent string transformation for high accuracy object identification [Electronic resource] / S. Tejada, C. Knoblock, S. Minton.// Proc. 8th ACM SIGKDD int. conf. on knowledge discovery and data mining, Edmonton, AB, Canada, July 23-26, 2002. - [N.Y. : ACM, 2002]. - 10 p. - URL: http://www.isi.edu/integration/papers/tejada02-kdd.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

[135] Verykios V S. Automating the approximate record matching process / Vassilios S. Verykios, Ahmed K. Elmagarmid // Inf. sci. - 1999. - Vol. 126. - P. 83-98.

[136] VIAF: The virtual international authority file [Electronic resource] : [offic. site] / OCLC: the world's libraries - Dublin, 2010-2012. - URL: http://viaf.org, free. - Tit. from the screen (usage date: 04.06.2013).

[137] Volz J. Silk - a link discovery framework for the web of data [Electronic resource] / J. Volz [et al.] // Proc. WWW 2009 workshop on linked data on the web (LDOW 2009), Madrid, Spain, Apr. 20, 2009. - [Madrid], 2009. - 6 p. -(CEUR workshop proc. ; vol. 538). - URL:

http://events.linkeddata.org/ldow2009/papers/ldow2009_paperl3.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

[138] Web of Science [Электронный ресурс] // Thomson Reuters : [сайт]. -Thomson Reuters, 2014. - URL:

http://thomsonreuters.com/thomson-reuters-web-of-science/, свободный. -Загл. с экрана (дата обращения: 10.03.2014).

[139] Winkler W. Е. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage [Electronic resource] / W. E. Winkler // Proc. of the Survey research methods section / Amer. stat. assoc. -[Alexandria : ASA], 1990. - P. 354-359. - URL:

http://www.amstat.0rg/secti0ns/srms/Pr0ceedings/papers/l990_056.pdf, free. -Tit. from the screen (usage date: 04.06.2013).

[140] Winkler W. E. Overview of record linkage and current research directions [Electronic resource] : tech. report / W. E. Winkler ; U.S. Census Bureau, Stat, res. div. - Washington : [s. п.], 2006. - 44 p. - (RRS (Statistics #2006-2)). -URL : http://www.census.gov/srd/papers/pdf/rrs2006-02.pdf, free. - Tit. from the screen (usage date: 04.06.2013).

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.