Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле тема диссертации и автореферата по ВАК РФ 25.00.35, кандидат технических наук Рябинков, Артем Иванович

  • Рябинков, Артем Иванович
  • кандидат технических науккандидат технических наук
  • 2006, Москва
  • Специальность ВАК РФ25.00.35
  • Количество страниц 186
Рябинков, Артем Иванович. Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле: дис. кандидат технических наук: 25.00.35 - Геоинформатика. Москва. 2006. 186 с.

Оглавление диссертации кандидат технических наук Рябинков, Артем Иванович

ВВЕДЕНИЕ.

1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ПОСТАНОВКА ЗАДАЧ

ИССЛЕДОВАНИЯ.

1.1 Проблема поиска информации в сети Интернет.

1.2 Анализ Интернет-источников информации в области геоинформационных технологий.

1.3 Анализ существующих Интернет-поисковых инструментов для ГИС-специалиста.

1.4 Определение требований к эффективной информационно-поисковой системе по геоинформационной тематике.

1.5 Выбор типа специализированной поисковой системы.

1.6 Анализ инструментов создания специализированных систем на базе сбора коллекции документов из сети Интернет.

1.7 Постановка задач исследования.

1.8 Выводы к главе 1.

2 ПРОЕКТИРОВАНИЕ АРХИТЕКТУРЫ СПЕЦИАЛИЗИРОВАННОЙ

ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ.

2.1 Проектирование каталога Интернет-ресурсов в области геоинформатики и смежных областей.

2.2 Проектирование коллекции веб-документов.

2.3 Разработка методики пополнения коллекции веб-документами с неизвестных Интернет-ресурсов.

2.4 Разработка методики фильтрация и рубрикации документов на входе в коллекцию.

2.5 Анализ геопространственного контекста веб-документов на входе в коллекцию.

2.5.1 Геопространственный контекст информации и его значение.

2.5.2 Методы определения геопространственного контекста.

2.5.3 Пространственные поисковые запросы в информационно-поисковой системе.

2.6 Проектирование интегратора новостной информации.

2.7 Проектирование методики поиска информации в тематических онлайн-библиотеках.

2.8 Проектирование методики поиска в сети Интернет файлов геопространственных данных.

2.8.1 Форматы и размещение геоданных на веб-ресурсах.

2.8.2 Распознавание файлов геоданных.

2.9 Интегрированный поисковый интерфейс системы.

2.10 Структурная схема ИПС.

2.11 Выводы к главе 2.

3 РЕАЛИЗАЦИЯ МОДУЛЕЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЫ.

3.1 Создание каталога Интернет-ресурсов в области геоинформационных технологий.

3.1.1 Разработка структуры рубрикатора.

3.1.2 Разработка структуры метаописания ресурса в каталоге.

3.1.3 Разработка процедуры включения ресурсов в каталог и нормативов для модератора каталога.

3.1.4 Разработка пользовательского интерфейса каталога.

3.1.5 Разработка административного интерфейса каталога.

3.1.6 Разработка функционала рейтингования ресурсов и отображения рейтингов.

3.1.7 Разработка функционала проверки работоспособности ресурсов.

3.2 Разработка тематической коллекции веб-документов и алгоритмов ее пополнения.

3.2.1 Разработка архитектуры сетевых роботов.

3.2.2 Разработка методики оценки релевантности веб-страницы.

3.2.3 Разработка стратегии обхода поисковых слайдеров.

3.3 Разработка модуля фильтрации и рубрикации документов на входе в коллекцию.

3.3.1 Методы автоматической классификации информации.

3.3.2 Применение метода PrTFIDF для автоматического рубрицирования документов в веб-коллекции.

3.4 Модуль анализа геопространственного контекста веб-документов.

3.5 Создание модуля интеграции новостных потоков (агрегатора).

3.5.1 Считывание заголовков новостей в формате RSS.

3.5.2 Считывание заголовков новостей напрямую с веб-страниц.

3.5.3 Скачивание, фильтрация и рубрикация текстов новостей.

3.5.4 Обработка новостного потока.

3.6 Модуль поиска в онлайн-библиотеках.

3.7 Разработка модуля поиска геопространственных данных.

3.8 Разработка поисковой машины.

3.9 Выводы к главе 3.

4 ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ ПОИСКОВОЙ СИСТЕМЫ.

4.1 Платформа реализации и инструментальные средства.

4.2 Реализация модулей системы для проведения экспериментальных исследований.

4.2.1 Структура ИПС.

4.2.2 Интернет-каталог.

4.2.3 Коллекция веб-документов.

4.2.4 Новостной интегратор.

4.2.5 Рубрикатор информации.

4.2.6 Коллекция геоданных.

4.2.7 Интегрированный поисковый интерфейс системы.

4.3 Экспериментальное исследование модуля «Интернет-каталог».

4.4 Экспериментальное исследование модуля «Новостной интегратор».

4.5 Экспериментальное исследование модуля поиска геоданных.

4.6 Экспериментальное исследование модуля рубрицирования.

4.6.1 Описание эксперимента.

4.6.2 Анализ результатов эксперимента.

4.7 Исследование эффективности поискового спайдера.

4.8 Исследование качества поиска в коллекции веб-документов.

4.8.1 Описание эксперимента.

4.8.2 Критерии оценки точности поиска.

4.8.3 Анализ результатов эксперимента.

4.9 Выводы к главе 4.

Рекомендованный список диссертаций по специальности «Геоинформатика», 25.00.35 шифр ВАК

Введение диссертации (часть автореферата) на тему «Разработка принципов создания информационно-поисковой Интернет-системы в области наук о Земле»

Колоссальные объемы информации во всех сферах человеческой жизнедеятельности обусловили высокую значимость и актуальность исследований, посвященных информационному поиску. Бурное развитие сети Интернет позволило предоставить специалистам унифицированный доступ к источникам информации по всему миру, существенно расширило возможности исследователей, нуждающихся в информационных ресурсах для практической и научной работы. Но при этом обнажилась очень острая проблема: объем производимой и поставляемой в Сеть информации значительно превышает существующие возможности по ее надлежащей обработке и поиску. Результаты, выдаваемые поисковыми системами Интернета, зашумлены огромным количеством ссылок на материалы, которые формально релевантны запросу, но на деле не имеют отношения к стоявшей информационной потребности. В итоге чтобы обнаружить нужные документы пользователь вынужден тратить большое количество времени на просмотр совершено не нужной ему информации.

Эти явления отразились и на науках о Земле. Интернет позволил предоставить большим группам исследователей и специалистов огромные массивы текстовых, графических и мультимедиа-данных. Но вследствие отмеченных проблем с поиском в Интернет, эффективность их использования по-прежнему низка. В развитии геоинформатики как одной из перспективных сфер научной деятельности, входящей в состав комплекса наук о Земле, очень остро стоит вопрос по разработке эффективных методов доступа к распределенным информационным ресурсам по наукам о Земле и природопользованию [3].

Сегодня перспективным способом интеграции данных по определенной проблематике, которые размещены в сети Интернет, является построение специализированных тематических порталов. В такой портал собирается информация из большого количества информационных источников, унифицируется, классифицируется и предоставляется пользователю посредством стандартизированного веб-интерфейса. Методология создания тематических порталов активно прорабатывается различными исследователями. Разработано множество решений на базе применения различных технологий сбора, обработки и представления данных пользователю. Кроме того, по многим предметным областям, есть конкретные рекомендации по составу информации и сервисам, которые портал предоставляет посетителям. В области наук о Земле такие ресурсы также существуют, но их количество явно недостаточное.

Однако тематический портал по своей идеологии нельзя отнести к классу поисковых машин. Несмотря на то, что в нем собрана информация из множества источников, в том числе и из Интернет-ресурсов, есть качественный рубрикатор информации, имеется поиск по коллекции собранных данных, практически вся информация собирается вручную, что подразумевает два основных недостатка такого подхода. Во-первых, вследствие ручной обработки информации, поддержание таких порталов требует большого объема материальных и людских ресурсов. Во-вторых, по этой же причине говорить о полноте покрытия информационных источников в Интернет не приходится, так как информация в Интернет обладает высокой изменчивостью, которую вручную очень сложно отражать на портале.

Требуются автоматические методы пополнения коллекции данных тематического портала из Интернет-источников. Автоматически собранные данные далее могут быть проанализированы, систематизированы и включены в структурированном виде в рубрикатор портала, но до этого момента, пользователи системы могут найти эту информацию и работать с ней.

Необходимо отметить, что автоматические методы поиска информации в Интернете, ее фильтрации, классификации, упоминались рядом исследователей (НИВЦ МГУ, ГНИИ ИТТ "Информика"), но полноценные исследования этого вопроса не производились, а текущие решения носят половинчатый характер. В частности, некоторые образовательные порталы в домене www.edu.ru индексируют веб-ресурсы, но только те, которые включены в каталог портала. То есть если информационный источник неизвестен группе обслуживания портала, то информация о нем не будет проиндексирована и доступна пользователям [17]. Это не решает проблему обеспечения полноты представления информационных источников по предметной области.

Применительно к геоинформационной тематике (входящей в состав наук о Земле), таких крупных порталов насчитываются единицы, причем ни один из них не содержит средств автоматического поиска в Интернет информации, релевантной тематике. Все порталы создавались стихийно без четко проработанной методологии. Отсутствует как теория комплексного решения данной задачи, так и практические наработки. Организация поиска в Интернете информации по геоинформатике и смежным областям и пополнения ею интегрированного информационно-поискового портала в области геоинформационных технологий и составляет суть диссертационной работы.

Ряд научных исследований в поисковой науке уже посвящались проработке методологии решения задач подобного класса [21, 36, 37, 38,40, 71]. Идея решений заключалась в создании Интернет-поисковых машин с типичной для таких систем архитектурой, но алгоритмами, учитывающими тематический контекст информации. Такие системы получили названия специализированных (вертикальных) поисковых машин. Цель такой системы заключается в направленном рекурсивном обходе наиболее интересных для тематики сетевых ресурсов и индексировании таких веб-страниц, которые содержат информацию, относящуюся к данной предметной области. Важнейшим компонентом таких систем является подсистема фильтрации, которая в автоматическом режиме определяет соответствие информации заданной тематике.

Однако предлагаемые поисковые методы в основном слишком универсальны, чтобы можно было говорить об их применимости для построения любой специализированной поисковой системы. Эффективность от их применения в общем случае зависит от предметной области. В частности, в документах по наукам о Земле большое значение имеет геопространственный контекст информации [24, 53, 55, 57, 72], тексты изобилуют упоминанием топонимов [4]. Также в сфере информационного поиска обычно рассматриваются вопросы поиска текстовых документов, тогда как, для ГИС-специалиста полезным является поиск в Интернете геопространственных данных [26].

Поэтому для решения задачи создания специализированной поисковой системы в области геоинформационных технологий, как составной части наук о Земле, необходимы комплексные исследования, учитывающие специфику предметной области, типы информационных источников и данных, которые используются специалистами, а также множество других факторов.

Целью работы является разработка принципов создания специализированной информационно-поисковой Интернет-системы для специалиста в области геоинформатики и смежных научных областей.

В основе работы лежит проектирование автоматизированных поисковых сервисов, осуществляющих поиск в Интернет информационных источников по геоинформационной тематике, сбор с них информации, ее обработку и предоставление пользователю. На базе совокупности этих сервисов может быть реализован интегрированный портал, либо эти сервисы могут дополнять функциональность уже существующих порталов, обеспечивая возможность оперативного поиска информации по многочисленным тематическим Интернет-ресурсам. Для достижения поставленной цели в работе рассматривается достаточно широкий спектр задач.

1) Анализ информации по геоинформационной тематике, размещенной в сети Интернет.

2) Создание тематического каталога Интернет-ресурсов в области геоинформационных и смежных технологий.

3) Поиск в сети Интернет веб-страниц по геоинформационной и смежным тематикам, их сбор в хранилище и предоставление пользователю возможность поиска по собранной коллекции данных.

4) Создание сервиса поиска в сети Интернет файлов геопространственных данных.

5) Предоставление пользователю возможности поиска информации в он-лайн-библиотеках документов, относящихся к предметной области.

6) Снабжение специалиста оперативной новостной информацией по геоинформационной и смежным тематикам, при помощи создания тематического новостного интегратора. Сужение предметной области до геоинформационной тематики продиктовано тем, что комплекс наук о Земле является очень большим и сложным по составу, и предложено апробировать методику создания тематической поисковой системы на одной из наук, после чего результаты исследований могут быть применены и к другим предметным областям (геологии, астрономии и т.п.). На защиту выносятся следующие результаты:

1) проведен анализ структуры и способов представления информации в области геоинформатики и смежных областей, размещенной в сети Интернет, на основании которого выработаны требования к эффективной специализированной поисковой системе;

2) разработана архитектура информационно-поискового портала в области геоинформатики и смежных областей;

3) разработаны модели и алгоритмы работы основных модулей системы: тематической коллекции веб-документов и модулей ее пополнения, тематического новостного интегратора, модуля поиска файлов геопространственных данных для последующего использования в ГИС-системах;

4) проведены экспериментальные исследования, подтверждающие работоспособность и эффективность модулей разработанной системы.

Научная новизна полученных результатов:

Основная научная новизна диссертации заключается в проработке методологической базы для создания специализированной поисковой Интернет-системы в области геоинформатики и смежных областей, входящих в комплекс наук о Земле, при условии отсутствия в настоящее время подобных комплексных разработок.

Составляющие научной новизны заключаются в следующем.

1) Разработка требований к информационно-поисковой системе на основе анализа структуры информации в области геоинформационных и смежных технологий.

2) Разработка моделей и алгоритмов модулей системы: каталога Интернет-ресурсов, модуля сбора тематически релевантных веб-страниц, модуля поиска геоданных, новостного интегратора.

3) Создание методики взаимодействия компонентов системы, обмена данными и выдачи поисковых результатов пользователю.

Практическая значимость результатов диссертационной работы состоит в том, что реализация информационно-поисковой системы на базе разработанной методологии позволит существенно сократить время поиска нужной информации для специалиста в области геоинформатики и ГИС-технологий. Это в свою очередь поможет специалистам и исследователям сократить сроки работ, избежать дублирования информации и ненужных усилий по разработке уже существующих способов и методов выполнения своих задач.

Результаты исследований в данной работе могут быть с рядом модификаций приложены к другим наукам о Земле: геологии, экологии, астрономии и т.п. Практическая значимость диссертации подтверждается актами о внедрении результатов исследования на кафедре информационно-измерительных систем Московского государственного университета геодезии и картографии.

Диссертация состоит из введения, четырех глав, заключения, списка литературы и четырех приложений.

Похожие диссертационные работы по специальности «Геоинформатика», 25.00.35 шифр ВАК

Заключение диссертации по теме «Геоинформатика», Рябинков, Артем Иванович

4.9 Выводы к главе 4

Результаты экспериментальных исследований успешно подтвердили выдвинутые ранее теоретические положения. Тестирование программной реализации разработанного метода и алгоритмов показало достаточную точность и корректность полученных значений.

В итоге показана работоспособность системы в данной реализации, предназаченной для формирования коллекции информации по геоинформационной и смежным тематикам.

Вместе с тем, стоит отметить сложность оценки полученных результатов, поскольку для этого требуются достаточно большие наборы экспериментальных данных (тестовые дорожки), на которых требуется осуществлять прогон методов обработки информации. Поэтому детальное исследование вопросов эффективности применяемых методов является предметом дальнейших экспериментов. Тем не менее, полученные экспериментальные результаты позволяют судить о потенциально высоких результатах ИПС.

ЗАКЛЮЧЕНИЕ

В работе рассмотрены теоретические и практические вопросы построения специализированной информационно-поисковой Интернет-системы в области геоинформатики, как составной части наук о Земле.

Разработаны: архитектура информационно-поисковой системы, модели и алгоритмы работы ее компонентов, позволяющих осуществлять поиск специализированной информации в сети Интернет, ее сбор и обработку, заключающуюся в фильтрации нерелевантного контента, интеграции новостных потоков, сохранения файлов геоданных

Архитектурные компоненты ИПС позволяют предоставить специалисту в области геоинформатики и смежных областей знаний средство оперативного доступа к качественной и актуальной информации, необходимой для работы.

Предложенные алгоритмы реализации модулей системы при проведении экспериментальных исследований продемонстрировали свою эффективность и пригодность для решения поставленных задач. Кроме того, было обосновано постепенное повышение эффективности всей системы в целом в процессе пополнения ее информацией из Интернет, обучением методов на более качественную фильтрацию и поиск контента.

Приведенную в диссертационном исследовании схему анализа структуры информации в конкретной предметной области, размещенной в сети Интернет, методик определения требований к поисковым средствам и выбора алгоритмов модулей, может служить методологической базой для создания специализированных поисковых систем по другим научным направлениям в области наук о Земле.

Можно выделить следующие основные результаты, полученные в диссертации.

1. Анализ структуры и способов представления информации в области геоинформационных и смежных технологий, размещенной в сети Интернет.

2. Анализ существующих поисковых инструментов, которыми в настоящее время может пользоваться ГИС-специалист, определение требований к эффективному поисковому инструменту.

3. Разработка архитектуры специализированной ИПС, модели взаимодействия ее компонентов, информационных потоков и методов работы с ними.

4. Разработка моделей и алгоритмов реализации модулей ИПС: каталога интернет-ресурсов, тематической коллекции, сетевых роботов, автоматического рубрикатора, новостного интегратора, модуля поиска геоданных.

5. Программная реализация модулей ИПС.

6. Экспериментальная оценка корректности и эффективности выносимых на защиту результатов.

Основные положения и отдельные результаты работы докладывались и обсуждались на 60 и 61 научно-технических конференциях студентов, аспирантов и молодых ученых МИИГАиК. По теме диссертационной работы опубликовано 3 печатные работы.

Практическая значимость диссертации подтверждается актом о внедрении результатов исследования на кафедре информационно-измерительных систем Московского Государственного Университета геодезии и картографии (МИИГАиК).

В качестве направлений дальнейших исследований можно выделить:

1. анализ геопространственного контекста информации и методов информационного поиска, учитывающей географические ограничения информационной потребности;

2. разработка модуля поиска информации в онлайн-библиотеках;

3. проведение дополнительных экспериментальных исследований, направленных на оценку эффективности методов фильтрации, рубрицирования и поиска информации.

Список литературы диссертационного исследования кандидат технических наук Рябинков, Артем Иванович, 2006 год

1. Агеев М.С. Методы автоматической рубрикации текстов, основанных на машинном обучении и знаниях экспертов // Диссертация на соискание ученой степени к.ф.-м.н. -М.: МГУ, 2004.

2. Арский Ю.М. Приоритетные проблемы геоинформатики как составной части наук о земле // Всероссийский институт научной и технической информации РАН/Миннауки РФ. Москва, 1998.

3. Друщиц В.А., Курчавова О.А. Географические названия и полнотекстовые документы по наукам о Земле // Труды международного семинара Диалог-2000 по компьютерной лингвистике. Т.2, Протвино, 2000.-с. 109-114.

4. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. - №4. - С. 77-83.

5. Дубинский А.Г. Проблема автоматизации поиска информации в глобальной сети // Проблемы автоматизации информационных технологий. Днепропетровск, 1999. - С. 40-48.

6. Дубинский А.Г. Разработка моделей и совершенствование структуры систем информационного поиска в глобальной компьютерной сети: Диссертационная работа к.т.н.: 05.13.06 / Днепропетровский национальный университет. Днепропетровск, 2002.

7. Дунаев Е.В., Шелестов А.А. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой // Сборник трудов по результатам стипендий компании Яндекс». Москва, 2005.

8. Иванов В., Некрестьянов И., Пантелеева Н. Расширение представления документов при поиске в Веб // Труды четвертой всероссийской конференция RCDL'2002. В двух томах. Т.2. Дубна, 2002. - С. 55-68.

9. Киселев М. В. Оптимизация процедуры автоматического пополнения веб-каталога // Труды седьмой всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции. Ярославль, 2005.

10. Когаловский М.Р. Энциклопедия технологий бах данных. М.: Финансы и статистика, 2002. - 800 с.

11. Кураленок И.Е., Некрестьянов И.С. Оценка систем текстового поиска // Программирование. 2002. №4 С. 226-242.

12. Лунева Н.В. Традиционные газеттиры и задачи создания электронных геобиблиотек // Труды международного семинара Диалог-2002 по компьютерной лингвистике. Т.2, Протвино, 2002.

13. Мартыненко А.И., Бугаевский Ю.А., Шибалов С.И., Фадеев В.А. Основы ГИС: теория и практика. WINGIS руководство пользователя. Изд. 2-е. М., изд-во Инженерная экология, 1995 г.

14. Медведев П.П., Баранов И.С. Глобальные космические навигационные системы. Итоги науки и техники. Сер. Геодезия и аэросъемка. Том 29. М., ВИНИТИ,. 1992 г.

15. Некрестьянов И., Пантелеева Н. Системы текстового поиска для Веб // Программирование. 2002. - №4.

16. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Диссертационная работа к.т.н.: 05.13.11 / Санкт-Петербургский государственный университет СПб., 2000. - 80 с. .

17. Плечов П. Ю., Варламов Д. А., Трусов С. В. Типы информационных потоков в области наук о Земле // Тезисы конференции «Научный сервис в сети Интернет». Москва, 2002.

18. Романова Е.В., Романов М.В., Некрестьянов И.С. Использование инте-лектуальных сетевых роботов для построения тематических коллекций // Программирование. 2000. -N3. - С. 63-71.

19. Рябинков А. Повышение эффективности поиска в сети Интернет путем анализа геопространственного контекста веб-страниц // Информационные технологии. Москва, 2005. №11, стр. 11.

20. Рябинков А.И. Принципы создания специализированного информационно-поискового портала в сети Интернет в области геоинформатики и ГИС-технологий // Сборник трудов 61 й научно-технической конференции МИИГАиК. Москва, 2006.

21. Рябинков А.И. Принципы создания специализированного сервиса для поиска геопространственных данных в сети Интернет // Известия вузов: геодезия и аэрофотосъемка, №6 Москва, 2006.

22. Симонов А.В., Кикнадзе Е.С., Плеханов П.Г., Трохинин Н.В. ГИС и Интернет (обзор информационных ресурсов и технологий) // Информационный бюллетень ГИС-ассоциации. № 5(32). Москва, 2001.

23. Советский энциклопедический словарь / Научно-редакционный совет: A.M. Прохоров (пред.). -М.: "Советская энциклопедия", 1981. 1600 с.

24. Сэлтон Г. Автоматическая обработка, хранение и поиск информации: Пер. с англ. / Под ред. А.И. Китова. М.: Советское радио, 1973. - 560 с.

25. Талантов М. Профессиональный поиск в Интернете: полнота, достоверность, скорость // КомпьютерПресс №7. Москва, 1999.

26. Цветков В. Я. Основы геоинформатики: Электронный учебник. М-во общ. и проф. образования РФ. Центр информатизации, 1998.-627 с.

27. Шайтура С.В. Геоинформационные системы и методики их создания. Калуга, издатель Бочкарева И.Ф., 1998 г.

28. Arasu A., Cho J., Garcia-Molina Н., Paepcke A., Raghavan S. Searching the web. ACM Transactions on Internet Technology, l(l):2-43, Aug. 2001.

29. Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. ACM Press, 1999.

30. Brin S., Page L.: The Anatomy of a Large-Scale Hypertextual Web Search Engine. In Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia (1998).

31. Chakrabarti S., Berg M., Dom B. Focused Crawling: A New Approach to Topic-Specific Web Resource Discovery. In Proc. of the WWW8, May 1999.

32. Chau M. Spidering and Filtering Web Pages for Vertical Search Engines. In Proceedings of The Americas Conference on Information Systems, AMCIS 2002 Doctoral Consortium, Dallas, Texas, August 8-11, 2002.

33. Chau M., Zeng D., Chen H. Personalized Spiders for Web Search and Analysis. In Proceedings of the First ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL'01), Roanoke, Virginia, USA, June 24-28, 2001, pp. 79-87.

34. Chen H., Lally A. M., Zhu В., Chau M. HelpfulMed: Intelligent Searching for Medical Information over the Internet. Journal of the American Society for Information Science and Technology, 54(7) (2003) 683-694.

35. Davison B. D. Topical locality in the Web. In Proc. of the SIGIR'00, pp. 272279,2000.

36. Ding L., Shivakumar N. Computing Geographical Scopes of Web Resources. In Proc. of the VLDB'00, Sep 2000.

37. Dublin Core Metadata Element Set Reference Description, Version 1.1, 199907-02. http:/purl.org/dc/documents/proposedrecommendations/pr-dces-19990702.html.

38. ESRI Shapefile Technical Description. ESRI, 1998.

39. Flake G., Lawrence S., Giles C. L. Efficient Identification of Web Communities. In Proc. of the SIGKDD'OO, pp. 150-160, Aug. 2000.

40. Gibotti F., Camara G., Nogueira R. GeoDiscover a specialized search engine to discover geospatial data in the Web. VI Brazilian Symposium in Geoinfor-matics, Geolnfo 2005, Campos do Jordro 2005.

41. Gibson D., Kleinberg J. M., Raghavan P. Inferring web communities from link topology. In Proc. of the UK Conference on Hypertext, pp. 225-234, 1998.

42. Gravano L. Querying Multiple Document Collections Accross the Internet. PhD thesis, Stanford University, Aug 1997.

43. Hirai J., Raghavan S., Garcia-Molina H., Paepcke A. WebBase: A repository of web pages. In Proc. of the WWW9, 1999.

44. Ipeirotis P., Gravano L., Sahami M. Probe, Count, and Classify: Categorizing Hidden-Web Databases. In Proc. of SIGMOD'Ol, 2001.

45. Jansen B. J., Spink A., Saracevic T. Real life, real users, and real needs: a study and analysis of user queries on the web. Information Processing and Management, 36(2):207-227,2000.

46. Kleinberg J. M. Authoritative sources in a hyperlinked environment // Journal of the ACM 47 (5-7): 604-632,1999

47. Larson R. Geographic Information Retrieval and Spatial Browsing. In: GIS and Libraries: Patrons, Maps and Spatial Information, Linda Smith and Муке Gluck, Eds., University of Illinois, (1996), 81-124.

48. Lawrence S. Context in Web Search. IEEE Data Engineering Bulletin, 23(3):25-32,2000.

49. Markowetz A, Brinkhoff Т., Seeger B. Geographic Information Retrieval. 3rd International Workshop on Web Dynamics, 2004.

50. McCallum A., Nigam K., Rennie J., and Seymore K.: A Machine Learning Approach to Building Domain-specific Search Engines. In: Proceedings of the International Joint Conference on Artificial Intelligence (1999) 662-667.

51. McCurley K. S. Geospatial Mapping and Navigation of the Web. In Proc. of the WWW10,2001.

52. Merkl D. A Handbook of Natural Language Processing: Techniques and Applications for the Processing of Language as Text, chapter Text data mining. Marcel Dekker, New York, 1998.

53. Pant G., Tsioutsiouliklis K., Johnson J., Giles C.L. Panorama: Extending Digital Libraries with Topical Crawlers. Proc. ACM/IEEE Joint Conference on Digital Libraries (JCDL 2004).

54. Patel A., Petrosjan L., Rosenstiel W., editors. OASIS: Distributed Search System in the Internet. St. Petersburg State University Published Press, St. Petersburg, 1999.

55. Raghavan S., Garcia-Molina S. Crawling the hidden web. In Proceedings of the 27th International Conference on Very Large Databases(VLDB), 2001.

56. Ritter N., Ruth M. GeoTIFF Format Specification Rev. 1.0. GeoTIFF Working Group, 1995.

57. Rochio J. J. Relevance Feedback in Information Retrieval. Prentice-Hall Inc., 1971.

58. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24:513-523,1988.

59. Salton G., Fox E., and Wu H. Extended Boolean information retrieval. Communications of the ACM, Vol. 26, No. 4, December 2001, pp. 35-43.

60. Salton G., McGill M. J. Introduction to modern Information Retrieval. McGraw-Hill Computer Science Series. McGraw-Hill, New York, 1983.

61. Santache A., Bauzer Medeiros C. Geographic Digital Content Components. V Brazilian Symposium in Geoinformatics, Geolnfo 2004, Campos do Jordro 2004.

62. Sebastiani F. Machine Learning in Automated Text Categorization. Technical Report B4-31. Istituto di Elaborazione dell'InformaTione, Consiglio Nazion-ale delle Ricerche. Pisa, 1999.

63. Stata R., Bharat K., and Maghoul F. The term vector database: fast access to indexing terms for web pages. In Proc. of the WWW-9, May 2000.

64. Steele R. Techniques for Specialized Search Engines, Proceedings of Internet Computing '01, Las Vegas, USA, (2001).

65. Vestavik O. Geographic Information Retrieval, An Overview. Internal Doctoral Conference, IDI, NTNU, 2004, 3- 10.

66. Woodruff, A. G. & Plaunt, C. (1994a). GIPSY: Geo-referenced Information Processing System. Journal of the American Society for Information Science, 45, 645-655.

67. Yang Y., Lui Y. A re-examination of text categorization methods // Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. (1999) p. 42-49.

68. Zhang D., Dong Y. An efficient algorithm to rank web resources. In Proc. of the WWW9, pp. 449-455, 2000.

69. Zhu X., Gauch S. Incorporating quality metrics in centralized/distributed information retrieval on the World Wide Web. In Proc. of the SIGIR'00, pp. 288-295, 2000.77

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.