Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации тема диссертации и автореферата по ВАК РФ 05.13.19, кандидат технических наук Баранов, Юрий Александрович

  • Баранов, Юрий Александрович
  • кандидат технических науккандидат технических наук
  • 2009, Санкт-Петербург
  • Специальность ВАК РФ05.13.19
  • Количество страниц 140
Баранов, Юрий Александрович. Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации: дис. кандидат технических наук: 05.13.19 - Методы и системы защиты информации, информационная безопасность. Санкт-Петербург. 2009. 140 с.

Оглавление диссертации кандидат технических наук Баранов, Юрий Александрович

ВВЕДЕНИЕ.

ГЛАВА 1. ПРОБЛЕМА РЕАЛИЗАЦИИ ТЕМАТИЧЕСКОГО РАЗГРАНИЧЕНИЯ ДОСТУПА В ИПС.

1.1. отличие тематического разграничения доступа от других методов, регулирующих доступ. существующие подходы к тематическому разграничению доступа.

1.2. анализ существующих подходов к авторубрикации текстов.

1.3. авторубрикация на основе статистических критериев.

1.4. моделирование связи тематики и статистических характеристик текстов

1.5. выводы.

ГЛАВА 2. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ ПОДХОДА К АВТОРУБРИКАЦИИ, ИСПОЛЬЗУЕМОГО В ТЕМАТИЧЕСКОМ РАЗГРАНИЧЕНИИ ДОСТУПА.

2.1. моделирование s-цепочек символов в тексте последовательностью независимых случайных величин.

2.1.1. использование статистики степени рассеивания для построения критерия независимости.

2.1.2. теоретическое обоснование критерия независимости появления s-цепочек в тексте.б

2.1.3. экспериментальные исследования независимости s-цепочек в тексте.

2.2. мера тематической близости текстов, моделируемых параметрами полиномиальных схем.

2.2.1. теоретическое обоснование области применения меры близости для различных входных данных.

2.3. выводы.

ГЛАВА 3. РАЗГРАНИЧЕНИЕ ДОСТУПА В ИПС НА ОСНОВЕ АВТОРУБРИКАЦИИ.

3.1. использование статистической меры близости текстов в подходе к тематическому разграничению доступа.

3.1.1. статистический критерий принадлежности текста к заданной области знаний.

3.1.2. методика тематического разграничения доступа в ипс.

3.2. теоретические оценки достоверности разграничения доступа.

3.3. выводы.

ГЛАВА 4. РАЗРАБОТКА И РЕАЛИЗАЦИЯ СИСТЕМЫ ТЕМАТИЧЕСКОГО РАЗГРАНИЧЕНИЯ ДОСТУПА.

4.1. экспериментальная оценка работы подхода к тематическому разграничению доступа на основе авторубрикации.

4.1.1. измерение оценок достоверности подхода к авторубрикации текстов относительно внутренних параметров.

4.1.2. измерение оценок работы подхода к тематическому разграничению доступа относительно входных данных.

4.1.3. сравнение описываемого подхода к авторубрикации с существующими аналогами.

4.2. функционирование тематического разграничения доступа в ипс.

4.2.1. архитектура системы тематического разграничения доступа в ипс.

4.3. применение разработанного подхода к авторубрикации для других задач

4.4. выводы.

Рекомендованный список диссертаций по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Введение диссертации (часть автореферата) на тему «Тематическое разграничение доступа в информационно-поисковой системе на основе авторубрикации»

Существующие методы и средства управления доступом с использованием различных моделей политик безопасности весьма разнообразны, но все они основаны на присвоении объектам контроля доступа некоторых меток безопасности или атрибутов. Назначение данных меток и атрибутов представляет собой отдельную задачу, которая в настоящее время решается без технических средств, а исключительно организационными мерами. Вместе с тем в значительном количестве случаев пользователь заинтересован в управлении доступом исходя из содержания текстовой информации, представленной в документах [60], базах данных[46] и т.д.

Подобная модель политики безопасности называется тематической политикой доступа и имеет ограниченное распространение, прежде всего потому, что её реализация требует трудоёмкой предварительной работы по разбиению исходной информации по рубрикам, которая, как правило, осуществляется экспертами с применением различных средств, не обеспечивающих эффективную автоматизацию разделения текстов на тематические классы.

Данная работа продолжает исследования как отечественных ученых: Гайдамакин Н.А, Поспелов Б.А., Девянин П.Н., Арапов М. В., Пиотровский Р. Г., так и зарубежных: Н. Кресси, Р. Рида, Д. Мак-Лин, Р. Сандху, Д. Клиффорд, Дж. Кэрри и других. Работа опирается на результаты этих исследований и развивает их отдельные положения применительно к задаче тематического управления доступом с автоматическим разделением информации по заданным темам.

Применение политики тематического разграничения доступа целесообразно для контроля доступной пользователю информации на предмет отнесения ее к сведениям, доступ к которым нежелателен[18] той или иной категории пользователей, а также при создании объединённых систем баз данных, используемых пользователями с различными полномочиями относительно семантического содержания. Особенно это актуально в отношении систем контроля доступа в сети Интернет, что востребовано, например, в образовательных учреждениях. Отличительной особенностью тематического управления доступом является необходимость категорирования информации, что затрудняет реализацию подобных систем и требует разработки новых подходов. Однако, при условии автоматизации эффективного разбиения информации на классы, системы реализующие политику тематического разграничения доступа, могут работать с неограниченным множеством объектов доступа (текстов).

Актуальность разработки подхода к автоматическому разбиению информации на тематические классы также подчеркивается возможностью его использования в аналитических и информационных системах.

Представленная работа посвящена исследованию создания систем управления доступом, основанных на применении решения о доступе к информационному объекту на основе автоматизации разбиения текстовых данных по тематическому признаку (автоматической рубрикации текстов).

Необходимо также отметить отдельно, что разрабатываемый подход к управлению доступом инвариантен относительно естественных языков, на которых написаны документы. Положительным отличием предлагаемого подхода от большинства других алгоритмов автоматического определения тематики текстов состоит в том, что для текстов на различных языках при обучении системы требуется только умение определить тематику текста, тогда как во многих других системах необходимо более глубокое знание естественных языков.

Целью диссертационной работы является разработка подхода к созданию систем тематического управления доступом в справочных и информационно-поисковых системах на основе автоматического отнесения текстов к заданным тематическим рубрикам с использованием статистических критериев.

Для достижения этой цели необходимо решить следующие задачи:

1. Предложить и обосновать подход к реализации систем тематического управления доступом, основанный на автоматической рубрикации текстов.

2. Разработать модель текста, позволяющую определить его принадлежность к тематическим рубрикам в автоматизированном режиме.

3. Разработать и обосновать критерий принадлежности текста к заданной тематической рубрике для использования его в тематическом разграничении доступа и исследовать оценку его достоверности при различных параметрах функционирования.

4. Предложить методику тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработать архитектуру системы тематического управления доступом на основе предложенного подхода.

Решение сформулированных задач проводилось с помощью аппарата теории вероятностей и математической статистики, теории математической лингвистики, теории систем и основ теории защиты информации. Для решения сформулированных задач применялся анализ подходов к реализации систем, осуществляющих тематическое управление доступом, изучение современных алгоритмов разделения текстов.

Научная новизна диссертационной работы состоит в следующем:

1. Сформулирован подход к построению систем тематического управления доступом на основе автоматического разделения текстов по тематическим рубрикам с использованием статистических критериев.

2. Предложена и обоснована оригинальная модель текстовых данных, позволяющая разработать критерий отнесения текста к тематическим рубрикам.

3. Впервые предложен и математически обоснован критерий автоматического отнесения текста к заданным тематическим рубрикам на основе анализа распределения цепочек символов.

4. Разработана методика управления доступом по тематическому признаку, содержащая рекомендации по выбору параметров входных данных (объёмов текстов, количества рубрик, естественных языков), а также параметров подхода к авторубрикации.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Практическая ценность работы состоит в том, что её результаты позволяют:

1. Контролировать доступ к информации,' полученной из открытых и общедоступных источников (например, Интернет), исходя из ее тематического направления, для различных категорий пользователей в зависимости от различных факторов (например, возрастные ограничения).

2. Реализовать систему тематического разграничения доступа в архивных и библиотечных системах, с автоматическим разбиением добавляемой в них информации по тематическим рубрикам.

Практическая ценность и новизна работы подтверждаются актами об использовании: от Учреждения Российской академии наук ИЛИ РАН (результаты применены при реализации подсистемы назначения полномочий сотрудников ведомственной компьютерной сети) и от ЗАО «МВП Свемел» (разработанная методика применена при создании системы документооборота).

Основные теоретические и практические результаты работы обсуждались на XVII и XVIII общероссийских научно-технических конференциях «Методы и технические средства обеспечения безопасности информации» (2008, 2009 Санкт-Петербург).

По теме диссертации опубликовано 9 работ, в их числе 6 научных статей, из них в изданиях, входящих в перечень утвержденных ВАК РФ - 6, и 3 доклада на конференциях.

Основные положения, выносимые на защиту: • Подход к тематическому разграничению доступа с использованием автоматического разделения информации по тематическим рубрикам.

• Модель текстовых данных, основанная на характеристиках распределения частот появления цепочек символов постоянной длины.

• Статистический критерий принадлежности текстовых данных к тематическим рубрикам в системах управления доступом на основе анализа распределения цепочек символов.

• Методика тематического разграничения доступа, основанная на статистическом подходе к авторубрикации текстов.

• Архитектура системы тематического управления доступом в информационно-поисковых системах, при обработке информации из общедоступного источника.

Диссертация состоит из введения, четырех глав, заключения и списка литературы из 63 наименований.

Похожие диссертационные работы по специальности «Методы и системы защиты информации, информационная безопасность», 05.13.19 шифр ВАК

Заключение диссертации по теме «Методы и системы защиты информации, информационная безопасность», Баранов, Юрий Александрович

4.4. Выводы

Таким образом, в данной главе превалируют следующие задачи практического смысла:

• Исследование значений оценок достоверности предложенного статистического подхода к авторубрикации текстов при работе с реальными текстовыми массивами.

• Выявление оптимальных значений внутренних параметров подхода.

• Получение оценок работы подхода тематического разграничения доступа при различных входных данных.

• Сравнение разработанного подхода к авторубрикации с существующим аналогом.

• Описание архитектуры систем с применением политики тематического разграничения доступа, основанного на предлагаемом подходе к авторубрикации текстов.

Заключение

В результате диссертационных исследований:

1. Проанализированы существующие подходы к реализации систем тематического управления доступом и к системам авторубрикации текстов.

2. Предложен и обоснован оригинальный подход к авторубрикации текстов для использования в системе тематического разграничения доступа. В рамках теоретического обоснования подхода:

- Предложена статистическая модель текста, основанная на разбиении текста на цепочки символов текста.

- Введена мера близости текстов, основанная на вычислении статистики степени рассеивания.

- Построен статистический критерий определения принадлежности текста к заданной тематической рубрике.

3. Проведены оценки достоверности авторубрикации для различных параметров функционирования.

4. Разработана методика тематического управления доступом на основе автоматической рубрикации текстов.

5. Разработана архитектура системы тематического управления доступом на основе предложенного подхода.

Список литературы диссертационного исследования кандидат технических наук Баранов, Юрий Александрович, 2009 год

1. Агеев М.С., Кураленок И.Е. Приложение А. Официальные метрики РОМИП'2004. // Труды второго российского семинара по оценке методов информационного поиска. Под ред. И. С. Некрестьянова. СПб.: НИИ Химии СПбГУ. - 2004. - С. 142-150.

2. Александров А.Н. Аналитика по-русски. Электронный ресурс. // Открытые системы. 2007. — №8. URL: http://www.info-system.ru/olap/olap analytics rus.html (дата обращения: 15.06.2009) свободный. - Загл. с экрана.

3. Антонов А.В. Методы классификации и технология Галактика-Zoom // сб. Международный форум по информации. М.: ВИНИТИ. 2003. Т.28. №4. - С. 27-32.

4. Арапов М.В. Квантитативная лингвистика. М.: Наука, 1988. 183 с.

5. Арапов М.В. Классификация и распределения в лингвистике. Семиотика и информатика. Вып.17. М.: ВИНИТИ, 1981. 261 с.

6. Баранов А.П., Баранов Ю.А. Аппроксимация моментов произвольных целых порядков обобщением факториальными степенями. // М.: Дискретная математика. 2005. - т. 17. вып. 1. - С. 50-67.

7. Баранов А.П., Баранов Ю.А. Критерий степени рассеивания в задаче однородности выборок при большом числе исходов и испытаний. // М.: Дискретная математика. 2005. - т. 17. вып. 2. - С. 19-48.

8. Баранов А.П., Баранов Ю.А. Распределение степени рассеивания с растущим числом исходов в критерии принадлежности. // М.: Труды по дискретной математике. 2005. - т. 8. - С. 34-51.

9. Баранов П.А. О применении критерия степени рассеивания для обнаружения аномалий. // СПб.: Сб.Материалов XV общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». СПбГПУ. 2006. - С. 96-97.

10. Баранов ПА. Проблемы реализации мандатного доступа (модель Белла ЛаПадулы) к ресурсам вычислительных систем. // СПб.: Проблемы информационной безопасности. - 2005. — № 1. — С. 7-15.

11. Баранов Ю.А. Авторубрикация текстов на основе неоднородных полиномиальных схем. // СПб.: Проблемы информационной безопасности. Компьютерные системы. 2008. - № 4. - С. 37-53.

12. Баранов Ю.А. Разработка тематической политики доступа в информационно-поисковых системах на основе авторубрикации текстов. // СПб.: Проблемы информационной безопасности. Компьютерные системы. 2009. - № 1. - С. 43-48.

13. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС. // СПб.: Проблемы информационной безопасности. Компьютерные системы. — 2008. — № 1. С. 104-111.

14. Баранов Ю.А. Статистическая независимость в моделях текстов, обрабатываемых в АИС. // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». СПбГПУ. 2008. - С. 8

15. Баранов Ю.А. Неоднородные полиномиальные схемы и их применение для авторубрикации. // Материалы XVII общероссийской научно-технической конференции «Методы и технические средства обеспечения безопасности информации». 2008. - С. 9

16. Белоногов Г. Г., Котов Р. Г. Автоматизированные информационно-поисковые системы. М.: Советское Радио. 1968. 184 с.

17. Бернштейн С. Н. Распространение предельной теоремы теории вероятности на суммы зависимых величин. // М.: Успехи математических наук. 1944. - вып. 10. - С. 65-114.

18. Богданов В.В. Статистические концепции языка и речи. // Статистика речи и автоматический анализ текста 1972, Л.: Наука. 1973. - С. 9-19.

19. Гайдамакин Н. А. Разграничение доступа к информации в компьютерных системах. Екатеринбург: Издательство Уральского Университета. 2003. 328 с.

20. Гайдамакин Н. А. Автоматизированные информационные системы, базы и банки данных. Вводный курс: Учебное пособие. М.: Гелиос АРВ. 2002. 368 с.

21. Гареев А. Ф., Дягилева А. В., Киселев С. Л. Автоматическое тематическое рубрицирование сообщений средств массовой информации на основе применения технологии нейронных сетей. // Информационные технологии. 1999. - № 5 - С. 26-33.

22. Гендина Н.И. Лингвистические средства автоматизации документального поиска. СПб.: Б АН. 1992. 188 с.

23. Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста. // Информационные технологии. -2002.-№7.-С. 30-34.

24. Девянин П.Н. Модели безопасности компьютерных систем. М.: Academia. 2005. 144 с.

25. Денисов П.Н. Принципы моделирования языка. М.: МГУ. 1965. 151 с.

26. Зегжда Д.П., Ивашко A.M. Как построить защищенную информационную систему. СПб.: НПО «Мир и Семья-95». 1998. 256 с.

27. Зегжда Д.П., Ивашко A.M. Основы безопасности информационных систем. М.: Горячая Линия Телеком. 2000. 452 с.

28. Калинин В. М., Шалаевский О. В. Хи-квадрат как критерий независимости признаков в таблице сопряженности признаков. // Наука, Ленинград, Исследования по классическим проблемам теории вероятности и математической статистики. 1984. — т. 26. - С. 88-117.

29. Базы данных. Интеллектуальная обработка информации. /В.В. Корнеев и др.. М.: Нолидж. 2000. 352 с. ISBN 5-89251-089-1

30. Корт С.С. Теоретические основы защиты информации. М.: Гелиос АРВ. 2004. 240 с. ISBN 5-85438-010-2.

31. Крамер Г. Математические методы статистики. М.: Мир. 1975. 648 с.

32. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. - Т. 37. Вып. 2.-С. 96-108.

33. Кураленок И. Е., Некрестьянов И. С. Оценка систем текстового поиска. // Программирование. 2002. - т. 28. № 4. - С. 226-242.

34. Марков А.А. Об одном применении статистического метода. // Известия Имп.Акад.наук, серия VI. 1916. - Т. 10. № 4. - С. 239.

35. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие. М.: ACT: Восток-Запад. 2007. 317 с.

36. Мельников В.В. Безопасность информации в автоматизированных системах. М.: Финансы и статистика. 2003. 368 с.

37. Москальчук Г.Г. Структура текста как синергетический процесс. М.: Едиториал УРСС. 2003. 296 с.

38. Опарин А.А. Системы мониторинга и анализа СМИ. Электронный ресурс. // PC Week. 2003. - №47.

39. URL: http://www.pcweek.ru/themes/detail.php?ID-66333 (дата обращения: 15.06.2009).

40. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М.: Высшая школа, 1977. 183 с.

41. Рао С. Р. Линейные статистические методы и их применения. М.: Наука. 1968. 547 с.

42. Селиванов Б. И. О статистике хи-квадрат для проверки однородности полиномиальных выборок. // М.: Обозрение прикладной и промышленной математики. -2006. — т.13. вып. 3 С. 542-543.

43. Смирнов С.Н. Безопасность систем баз данных. М.: Гелиос АРВ. 2007. 352 с.

44. Хмелев Д.В. Распознавание автора текста с использованием цепей А.А. Маркова. // М.: Вестник МГУ, сер.9: Филология. 2000. - № 2. -С. 115-126.

45. Хоффман JI. Дж. Современные методы защиты информации. М.: Сов. Радио. 1980.264 с.

46. Кто написал «Тихий Дон»?: (Проблема авторства «Тихого Дона») / Г. Хьетсо и др.. М.: Книга. 1989. 186 с.

47. Чипига А. Ф., Ерещенко А. А. Разграничения доступа в объектно-ориентированных системах на основе структуры классов. // Вестник СевКавГТУ. 2006. - № 1. - С. 23-28.

48. Шабанов В.И. Модели и методы автоматической классификации текстовых документов: автореф. дис.канд.техн.наук : 05.13.11 / Шабанов Владислав Игоревич. Москва, 2003. - 18 с.

49. Шрейдер Ю. А. Равенство, сходство, порядок. М.: Наука. 1971. 256 с.

50. Щеглов А.Ю. Защита компьютерной информации от несанкционированного доступа. М.: Наука и техника, 2004. 384 с.

51. Анализ текстов. Электронный ресурс.

52. URL: http://www.statsoft.ru/home/portal/exchange/textanalysis.htm. (дата обращения: 15.06.2009).

53. Berger Н.А, Merkl D. Comparison of Text-Categorization Methods applied to iV-Gram Frequency Statistics. // Australian Conference on Artificial Intelligence. 2004. - P. 998-1003.

54. Cavnar W. В., Trenkle J. M. N-gram based text categorization. // Proceedings of 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas 11-13 April. 1994.-P. 161-175.

55. Cressie N., Read Т. Статистики однородности для дискретных многомерных данных = Goodness-of-fit statistics for discrete multivariate data. New York, Springer. 1988. 211 p. Язык: англ.

56. Gladney H.M. Access control for large collections // ACM Transactions on Information Systems (TOIS). 1997. - Vol. 15. № 2. - P. 154-194.

57. Gladney H.M. Охрана содержимого и пользователей цифровой библиотеки: Контроль доступа к документам = Safeguarding Digital Library Contents and Users: Document Access Control. Электронный ресурс. // D-lib Magazine June 1997, 1997.

58. URL: http://www.dlib.org/dlib/iune97/ibm/06gladney.html (дата обращения: 15.06.2009).

59. Harris S. Mike Meyers' CISSP(R) Certification Passport. McGraw-Hill Osborne Media. 2002. 422p. ISBN 0-07222-578-5.

60. Pederson J., Yang Y. Feature selection in statistical learning of text categorization. //Proceedings of the ICML'97. 1997. P. 412-420.

61. Yang Y. An Evaluation of Statistical Approaches to Text Categorization. // Journal of Information Retrieval. 1999. - Vol. 1. № 2 - P. 69-90.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.