Исследование и разработка структур построения и алгоритмов управления базой данных компьютерных словарей тема диссертации и автореферата по ВАК РФ 05.13.06, кандидат технических наук Черепицкий, Андрей Анатольевич

  • Черепицкий, Андрей Анатольевич
  • кандидат технических науккандидат технических наук
  • 1999, Санкт-Петербург
  • Специальность ВАК РФ05.13.06
  • Количество страниц 113
Черепицкий, Андрей Анатольевич. Исследование и разработка структур построения и алгоритмов управления базой данных компьютерных словарей: дис. кандидат технических наук: 05.13.06 - Автоматизация и управление технологическими процессами и производствами (по отраслям). Санкт-Петербург. 1999. 113 с.

Оглавление диссертации кандидат технических наук Черепицкий, Андрей Анатольевич

ВВЕДЕНИЕ

1. АНАЛИЗ СОВРЕМЕННЫХ КОМПЬЮТЕРНЫХ СЛОВАРЕЙ И ВЫДЕЛЕНИЕ ЗАДАЧ ИССЛЕДОВАНИЯ

1.1. Предварительные замечания.

1.2. Определение предметной области и объекта исследования.

1.3. Обзор литературы по предметной области.

1.4. Анализ современных компьютерных словарей.

1.5. Выделение и классификация функций поиска.

1.6. Концептуальная модель общей структуры словаря.

Рекомендованный список диссертаций по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Введение диссертации (часть автореферата) на тему «Исследование и разработка структур построения и алгоритмов управления базой данных компьютерных словарей»

Большинство исследований, проведенных в разных странах, подтверждают, что более 90% персональных компьютеров служат для работы с различными документами. Компьютеры и программы для редакции текстов практически полностью вытеснили перо, ручки и пишущие машинки.

Динамичное развитие рынка программного обеспечения в области DTP (DeskTop Publishing - настольное издательство) внесло существенные коррективы в традиционные методы подготовки текстов, обусловив тем самым появление и развитие компьютерных словарей как неотъемлемой части любой издательской или информационно-справочной системы.

Компьютерные словари могут использоваться как в составе прикладных систем программного обеспечения, так и самостоятельно, в виде отдельной программы.

В первом случае они, как правило, выступают в качестве орфографических модулей, предназначенных для проверки правильности составления документов, или модулей для систем автоматического перевода документов с одного языка на другой [1,2]. Общим свойством словарей, входящих в эту группу, является их изначальная ориентация на автоматическое исполь зование.

Во втором случае под компьютерным словарем понимается самостоятельная система, ориентированная на диалоговый режим работы с пользователем, являющаяся результатом перенесения традиционного печатного словаря на компьютерную основу и представляющая собой сочетание текстовой базы данных с управляющей программой.

Популярные текстовые редакторы зачастую обладают возможностью проверки правописания, поиска синонимов, а иногда даже помогают проверять грамматику [3] . Однако они не в состоянии заменить истинного словаря, то есть программы или книги), которая давала бы объяснения слов, примеры их использования или правила написания. Именно поэтому в настоящее время возрос интерес к построению компьютерных словарей, имеющих в своей основе накопленный столетиями опыт создания печатных словарей.

Что же привлекает пользователя к компьютерному изданию словаря? Приведем ниже несколько вполне очевидных преимуществ. Во-первых, информация может быть представлена по желанию пользователя в любом удобном для него виде, текст может сопровождаться рисунками, анимацией, звуковыми комментариями. Во-вторых, существенно увеличивается скорость поиска необходимых сведений и появляются новые возможности, недоступные в печатном издании. Наконец, далеко не последнюю роль играют такие качественные показатели, как компактность и долговечность изделия.

Остановимся подробнее на одном из вышеперечисленных преимуществ компьютерного словаря, а именно - расширенном наборе поисковых функций. Для большинства классических печатных словарей, все статьи которых расположены в алфавитном порядке, основным (и зачастую единственным) способом поиска информации является поиск заданной статьи по заглавному слову. В отличие от своего предшественника, компьютерный словарь обладает более развитыми способностями»: становится возможным поиск слов с неизвестными буквами или перестановками букв, подбор статей, содержащих заданное слово или несколько слов, поиск по всему тексту словаря.

С другой стороны, компьютерное представление текста словаря расширяет возможности модификации его содержания и позволяет снять большинство ограничений, присущих печатному изделию, что повышает качество словаря с точки зрения пользователя.

Таким образом, основными показателями качества компьютерного словаря с точки зрения пользователя являются расширенный набор функций управления и полнота базы данных. Для обеспечения эффективной работы функций управления необходимо построить соответствующую структуру внутренних данных словаря. В свою очередь, для преобразования текста печатного словаря в рамки этой структуры необходимо разработать соответствующие методы. Отсутствие универсального подхода к решению этих задач наряду с растущей популярностью компьютерных словарей определяют актуальность рассматриваемой темы.

Определим требования, которым ■ должны удовлетворять исходные данные. В нашем случае это словарь, отпечатанный типографским способом на бумаге хорошего качества, с четким разделением текста на статьи, структура которых описана авторами издания.

Выделим основные направления исследований: анализ и выделение основных функций компьютерного словаря;

- разработка элементов системы управления компьютерного словаря;

- разработка структуры компьютерного словаря

- разработка методов и алгоритмов построения компьютерного словаря на основе печатного прототипа.

На первом этапе исследования намечается провести выделение функций управления компьютерного словаря на основе анализа существующих компьютерных словарей. Затем планируется провести разработку алгоритмов, реализующих основные функции словаря, и построить соответствующие этим алгоритмам структуры данных. На завершающем этапе намечается провести разработку методов построения базы данных компьютерного словаря на основе текста его печатного прототипа.

Похожие диссертационные работы по специальности «Автоматизация и управление технологическими процессами и производствами (по отраслям)», 05.13.06 шифр ВАК

Заключение диссертации по теме «Автоматизация и управление технологическими процессами и производствами (по отраслям)», Черепицкий, Андрей Анатольевич

4.5, Основные выводы

В данном разделе была проведена экспериментальная проверка предложенной концепции и основных методов построения компьютерных словарей на примере разработки системы управления и базы данных компьютерной модели большого польско-русского словаря.

В ходе проведенных экспериментов были подтверждены основные теоретические результаты, полученные в предыдущих разделах, получены экспериментальные оценки эффективности исследуемых и модифицированных структур и алгоритмов, определены условия их применимости.

В завершение раздела выделим возможные направления дальнейших исследований по теме данной работы, которые могут продолжить развитие линии, связанной с построением и совершенствованием компьютерных словарей.

1) Модификации структур и алгоритмов, основанных на дереве префиксов.

Хотя вариант с построением дерева префиксов обладает лучшими временными характеристиками, объем занимаемой памяти все еще остается достаточно большим, чтобы применять этот метод во всех словарях без исключения. Каковы возможности по уменьшению этого объема? Заметим, что большинство слов в таких флективно-богатых языках, как русский, имеют одинаковые окончания. Выделив эти окончания в таблицу, можно убрать нижние уровни дерева префиксов, заменив их ссылками на номер окончания в таблице, что может дать существенную экономию памяти.

Для увеличения скорости просмотра кодированного текста словаря можно применить систему ссылок, указывающих для каждого слова место его следующего вхождения в тексте. Это, правда, ведет к увеличению объема, занимаемого словарем на диске, но этот параметр в большинстве случаев не является критическим.

2) Совершенствование существующих печатных словарей

Построение компьютерного словаря на основе печатного позволяет поднять на новый уровень качество исходного словаря. При помощи методов компьютерного анализа можно добиться выполнения условия автоморфизма для большинства словарей (словарь обладает этим свойством, если все содержащиеся в нем слова могут быть объяснены с ;его помощью, т.е. выступают в качестве заголовка). Кроме того, расширение и универсализация структуры словарей облегчает их дальнейшую модернизацию или объединение.

3) Построение обратных словарей

Если исходный словарь является двуязычным, возможно полуавтоматическое построение на его основе словаря, обратного заданному (в нашем случае на основе польско-русского словаря может быть построен зеркальный ему русско-польский) .

4) Построение подсловарей на основе универсального словаря

Под этим подразумевается возможность автоматического построения тематических словарей на основе универсального словаря (к каковым относится, например, толковый словарь или большая энциклопедия) путем выделения статей, относящихся к заданной предметной области.

ЗАКЛЮЧЕНИЕ

В диссертационной работе рассмотрены методы и алгоритмы построения системы управления и базы данных компьютерного словаря, ориентированные на разработку компьютерных словарей на основе их печатных прототипов.

Базой для разработки послужили теория баз данных (для разработки общих принципов построения компьютерного словаря), теория множеств (для представления математической модели словаря), теория анализа алгоритмов (для сравнения эффективности алгоритмов и структур), теория построения трансляторов (синтаксические диаграммы, используемые при описании структуры статьи).

В заключение перечислим основные результаты, выносимые на защиту.

1) Разработаны основные принципы и алгоритмы построения компьютерных словарей на основе исходного печатного прототипа.

2) Разработан способ представления базы данных компьютерного словаря в виде совокупности дерева префиксов всех слов с одновременным кодированием текста адаптивным частотным кодом, обеспечивающий оптимальное соотношение между сжатием информации и скоростью поиска без дешифрации текста.

3) Разработана формализованная процедура динамического задания структуры базы данных на основе синтеза синтаксических диаграмм, обобщающих авторское описание структуры словаря и адаптированных на основании экспериментальных данных.

4) Разработана концепция методов групповой коррекции как сочетания автоматического распознавания ошибок, их классификации на базе сортировки в более крупные группы,

Список литературы диссертационного исследования кандидат технических наук Черепицкий, Андрей Анатольевич, 1999 год

1. Ашманов И. С. Грамматический и стилистический корректор для текстов на русском языке. «Мир ПК», 1995, №1, с.51-61.

2. А.Беленький. Внимание! Переводит компьютер. «КомпьютерПресс», 1995, №11, с.50-51.

3. А.Соколов. Парадоксы в мире компьютерной обработки текстов. «Компьютер-Пресс», 1996, №4, с.37-39.

4. Першиков В.И, Савинков В.М. Толковый словарь по информатике. М.: Финансы и статистика, 1991.

5. Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических терминов. М.: Просвещение, 1976.

6. Atkins В. Bilingual Dictionaries: Past, Present and Future. Euralex 96 Proceedings. Part I, Goteborg: University Press, s.515-546.

7. Catford J.C. A Linguistic Theory of Translation: An Essay in Applied Linguistics. Oxford: University Press, 1965.

8. А.Блинов. Общеобразовательные продукты. Энциклопедии. «Компьютер-Пресс», 1995, №11, с.126-131.

9. P.Wimmer. Slowniki i nie tylko. PC Kurier, 1996, №24, s. 84 .

10. E.Golachowska. J^zykoznawstwo na CD. PC Kurier, 1997, №26, s.116.

11. А.Федоров. Что бывает на CD. «Компьютер-Пресс», 1995, №4, с.143-150.

12. Р.Гадас. Какой словарь самый-самый? «Компьютер-Пресс», 1996, №11, с.14-18.

13. Старизный А.Е. Автоматическое построение указателей к словарям словосочетаний с учетом парадигматических отношений между понятиями: Автореферат диссертации на соискание ученой степени канд.техн.наук: 05.25.05 . М. , 1991, 27 с.

14. Ситняковская Е.И. Исследование и разработка эффективных словарных методов сжатия данных для систем цифровой связи: Автореферат диссертации на соискание ученой степениканд.техн.наук: 05.12.02. Новосибирск, 1995, 27 с.

15. D.Angluin. Finding Patterns Common to a Set of Strings. SIAM Journal of Computing, 1980, v. 21, p.46-62.

16. R.M.Karp, M.O.Rabin. Efficient randomized, pattern-matching algorithms. IBM Journal of Research and Development, 1987, v.32, p.249-260.

17. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. М.: Мир, 1979. 519с.

18. L.Banachowski, K.Diks, W.Rytter. Algorytmy i struktury danych. Warszawa, WNT, 1996. 290 s.

19. D.E.Knuth. The art of Computer Programming. Volume 3: Sorting and Searching. Addison-Wesley Publishing Company, 1975 .

20. P.Wroblewski. Algorytmy: struktury danych i techniki programowania. Warszawa, Helion, 1997. 350 s.

21. Crochemore M., Rytter M. Text algoritms. Oxford University Press, 1994.

22. D.E.Knuth, J.H.Morris, V.R.Pratt. Fast pattern matching in strings. SIAM Journal of Computing, 1977, v.6, p.323-350.

23. Ziv J., Lempel A. Compression of individual sequences via variable-rate coding. IEEE Trans. Inf. Theory.- 1978, T24, №5, p.530-536.

24. Huffman D.A. A method for the construction of minimum-redundancy codes. Proc. Inst. Electr. Radio Eng. 1952, T.40, №9, p.1098-1101.

25. Н.Никольский. Автоматический ввод сложных документов. «Компьютер-Пресс», 1996, №4, с.18-20.

26. Н.Никольский. Системы ввода информации вчера, сегодня, завтра. «Компьютер-Пресс», 1996, №11, с.52-54.

27. Горский Н., Анисимов В., Горская JI. Распознавание рукописного текста: от теории к практике. СПб.: Политехника, 1997. - 126 с.

28. Зайцев-Зотов В.И., Савин A.A. Методы распознавания машинописных и рукописных знаков в оптических читающих устройствах. Сб.статей: Электронная вычислительная техника. Вып.З/под ред.В.В.Пржиялковского. М.: Радио и связь, 1989.- с.170-184.

29. Байков A.M., Кузин Е.С., Шамис A.C. Целостное целенаправленное распознавание изображений в ЭВМ / Вопросы кибернетики. М.: 198 7. - с.78-90.

30. Фурман Я., Юрьев А., Яншин В. Цифровые методы обработки и распознавания бинарных изображений. Красноярск, 1992.

31. Д.Тин, Б.Прасада. Методы цифровой обработки для кодирования графической информации. ТИИЭР,т.68, 1980, №7, с.6-40 .

32. Прикладные нечеткие системы // под ред. Т.Тэрано и др. -Перев. с японского. М.: Мир, 1993. - 368 с.

33. Алексеев A.A., Кноте К., Солодовников А.И., Спиваковский A.M., Черепицкий A.A. Алгоритм формирования диагностических признаков нечетких экспериментальных сигналов // Известия

34. ТЭТУ. Информационные технологии в технических и организационных системах. Вып.514. СПб., 1997, с.7б-80.

35. Алексеев A.A., Кундышев С.Б., Солодовников А.И., Спиваковский A.M., Черепицкий A.A. Метод спектрально-фрактального преобразования изображений // Известия СПбГЭТУ. Управление, информатика и вычислительная техника. Вып.1. СПб., 1998, с.29-33.

36. Русин Б.П. Структурно-лингвистические методы распознавания изображений в реальном времени. Киев, 1986.

37. Лингвистическое обеспечение информационных систем. М.: ИНИОН АН СССР, 1987. 219 с.

38. С.Dolçga. Pecet uczy siç czytac. CHIP,1998,№11,s.228-233.

39. А.А.Черепицкий. Применение методов групповой обработки текстов для поиска и исправления ошибок// С-Петербургск.гос. электротехн.ун-т. -СПб.-1999.-9с.: ил.- Деп.в ВИНИТИ 2389-В99.

40. A.Czerepicki, О.Dyczkowska-Uss. Przygotowanie tekstów do slowników komputerowych // Materialy konferencji „Ksiazki multimedialne i elektroniczne w edukacji i biznesie". Prace Instytutu Maszyn Matematycznych. Warszawa, wrzesieñ 1998.

41. E.Golachowska, К.Golachowski. Zadnej pewnosci. PC Kurier, №7. Warszawa, 1997. s.64-71

42. Совпель И.В. Инженерно-лингвистические принципы, методы и алгоритмы автоматической переработки текста. Минск: ВШ, 1991.

43. Wielki slownik polsko-rosyjski/Большой польско-русский словарь. Warsawa, Wiedza Powszechna, 1998. Tom I,II.

44. A.Majkowski, A.Pajak. Skanowanie nie jest trudne. Enter, №10. Warszawa, 1999. s. 60-72.

45. J.Banasiak, J.Turyñski. Scanocerowanie. PC Kurier, 1997, №19, s.94-100.

46. Slownik Jçzyka Polskiego. Warszawa, PWN, 1996. Tom I-III.

47. W.Cienkowski. Praktyczny Slownik Wyrazów Bliskoznacznych. Warszawa, WNT, 1995.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.