Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах тема диссертации и автореферата по ВАК РФ 05.13.17, кандидат технических наук Суриков, Анатолий Георгиевич
- Специальность ВАК РФ05.13.17
- Количество страниц 105
Оглавление диссертации кандидат технических наук Суриков, Анатолий Георгиевич
ВВЕДЕНИЕ
ГЛАВА 1 МЕТОДЫ И АЛГОРИТМЫ УЧЕТА
ССЫЛОЧНОГО ФАКТОРА В ИНФОРМАЦИОННОМ ПОИСКЕ, ИХ ОСОБЕННОСТИ И ОБЛАСТИ ПРИМЕНЕНИЯ
1.1 Введение
1.2 Ссылочный фактор как показатель в 13 информационном поиске
1.3 Методы и алгоритмы определения показателей 18 цитируемости электронных документов
1.4 Особенности и области применения 22 показателей цитируемости электронных документов
Рекомендованный список диссертаций по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Разработка методов и инструментальных средств повышения пертинентности поиска в современных информационных средах2010 год, кандидат технических наук Терехов, Алексей Андреевич
Развитие методов и моделей формирования интеллектуального контента2012 год, кандидат экономических наук Евсюткин, Александр Сергеевич
Математическое и программное обеспечение построения списков семантически близких слов на основе рейтинга вики-текстов2008 год, кандидат технических наук Крижановский, Андрей Анатольевич
Разработка специального математического и программного обеспечения выявления веб-сообществ в информационно-поисковых системах2007 год, кандидат технических наук Баженов, Михаил Михайлович
Использование связей между web-страницами и закономерностей рассеяния информации для повышения эффективности поиска в WWW2002 год, кандидат технических наук Нгуен Куанг Чунг
Введение диссертации (часть автореферата) на тему «Методы повышения эффективности определения показателей цитируемости электронных документов в информационно-поисковых системах»
2.2 Методы поиска нечетких копий электронных 29 документов, их анализ и сравнение
2.3 Метод поиска неявных цитат в больших 46 массивах электронных документов
2.4 Определение порождающего документа в 49 группе нечетких копий электронных документов
2.5 Метод определения показателя неявной 55 цитируемости электронных документов
2.6 Заключение 59
ГЛАВА 3 МЕТОД ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ 61 ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ ЦИТИРУЕМОСТИ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ
3.1 Введение 61
3.2 Методы определения показателей 62 цитируемости электронных документов, метод Кляйнберга
3.3 Фактор «неявной» цитируемости и его 70 применение для определения результирующего показателя цитируемости
3.4 Заключение 72
ГЛАВА 4 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ МЕТОДА 74 ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЯ ЦИТИРУЕМОСТИ ДОКУМЕНТОВ И ЭКСПЕРИМЕНТАЛЬНЫЕ ОЦЕНКИ
4.1 Введение 74
4.2 Описание алгоритма определения показателя 75 «неявной» цитируемости
4.3 Описание алгоритма определения 82 результирующего показателя цитируемости
4.4 Оценка временной эффективности и 84 требований к памяти
4.5 Экспериментальная оценка эффективности 86 метода определения цитируемости электронных документов
4.6 Заключение 89
ЗАКЛЮЧЕНИЕ 90
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 94 введение
Актуальность темы. В связи с высокими темпами роста объемов представленной в цифровом виде информации [28], а также с популяризацией глобальных компьютерных сетей и ростом числа их пользователей [ЪЩ7 задача развития средств информационного поиска и. информационно-поисковых систем (ИПС) приобретает сегодня особую актуальность.
Одним из последних важнейших достижений в области развития ИПС являются методы определения показателей цитируемости [6J электронных документов (далее - документов). Эти методы позволяют существенно улучшить качество ранжирования в результатах выдачи ИПС по релевантности, являются эффективным способом борьбы с информационно-поисковым текстовым стамом, а также играют важную роль в оптимизации работы ИПС.
Впервые идея расчета показателя цитируемости и учета этого показателя при вычислении значений релевантности (смыслового соответствия) в ИПС была опубликована в работах Крина и Пейджа в 1998 г. Разработанный ими алгоритм PageRank [9,45]. реализован в ИПС Google. В течение последующих нескольких лет появилось множество модификаций того алгоритма [2,15,55]
Существуют также альтернативные методы и алгоритмы вычисления показателей цитируегмоети [35,36, 56,58,61}. В их основе лежит общая идея: расчет численного показателя цитируемости данного документа среди множества других документов выборки [82]. Единственным источником информации о цитируемости для всех разработанных, на сегодня методов являются гиперссылки формализованные ссылки в тексте одного документа, указывающие на другой документ и содержащие адрес его местонахождения).
Однако практика использования разработанных, на основе таких методов алгоритмов выявила ряд их недостатков [18,10]. Во-первых, как было сказано выше, при определении показателей цитируемости учитываются только гиперссылки, а это лишь часть сиг общего числа ссылок и дитат. Зо-вторых, они слабо защищены от попыток искусственной «накрутки» результирующего показателя, и на смену текстовому «спаму» пришел «спам» ссылочный - документы со специально проставленными гиперссылками с авторитетных ресурсов;, не содержащие полезной информации в контексте поискового запроса. И, наконец, в-третьих, все популярные реализации расчета показателей цитируемости документов довольна ресурсоемки.
В связи е этим, задачу повышения эффективности методов определения показателей, цитируемости документов нужно признать актуальной.
Состояние проблемы. При исследовании, разработав и развитии методов и алгоритмов расчета показателей цитируемости документов охватывается широкий круг проблем, связных с оценкой эффективности, оптимизацией вычислительной сложности, информационным поиском и др. Здесь следует отметить значительный вклад отечественных и зарубежных ученых: И. С. Некрестьянов [78-811, И. В. Сегалович [83-851 Э. Э. Гасанов, В. Б. Кудрявцев [65], М. В. Ульянов [92-93], С. Ильинский, М. Кузьмин, А. Мелков [33], S. Brin [9], L. Page [9,45], U. Manber [42], A. Broder [11], a A. МсВгуаа [44], К. Bharat [Щ, M. R Henzinger [8], J. M, Kleinberg [13,30,31,36], M. S. Manasse [11,23], S. C. Glassman
11,60], H. Garcia-Mofina [3,14,32,52], N. Shivakumar [52J, P. Doreian [19,201, S. Abiteboul [1], В. H. Bagdikian [51, M. Marchiori [43], D. Gibson [13,30].
Существующие публикации гто тематике ссылочного ранжирования и цитируемости в информационном поиске посвящены учету факторов- «тематичности» и «доверительности» [35,36}, а также-усовершенствованию классического алгоритма PageRank с точки зрения его вычислительной эффективности и устойчивости к искусственным «накруткам» результирующих показателей [8,12]. Здесь следует отметить работы Е. А. Трофименко «Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска» [91]; L. Page, S. Brin «The PageRank citation Ranking: Bringing Order to- the Web» [45]; C.Jtmghoo, R.Sourashis «Impact of search engines on page popularity»- [15]; J.M. Kleinberg «Authoritative sources in a hyperlinked environment» [36]; R. Weiss, B. Velez, M. Sheldon, С Manprempre, P. Szilagyi, A. Duda, D. Gifford «А Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering» [56]; E. Spertus «Mining Structural Information on the Web» [54], A. Frieze, R. Kannan, S. Vempala « Fast Monte-Carlo Algorithms for Finding Low-Rank Approximations »- £26}.
В существующих работах по исследованию задачи повышения эффективности определения показателей цитируемости документов не учтены факторы неформального или «неявного» цитирования. К ним относятся гиперссылки с нарушением форматирования, ссылки в неформальной, форме или цитаты вообще без ссылок^ которые моЕут стать полезным источником информации для расчета показателей цитируемости документов.
Объект исследования. Объектом исследования диссертационной работы являются методы и алгоритмы определения показателей цитируемости электронных документов.
Цель работы. Целью работы является повышение эффективности алгоритмического и программного обеспечения для определения показателей цитируемости документов- и учета фактора «неявного» цитирования.
Основные задачи исследования. Достижение поставленной цели предполагает решение следующих основных задач:
- анализ существующих методов и алгоритмов определения показателей цитируемости документов;
- определение основных недостатков существующих методов, поиск путей по их устранению;
- разработка метода определения и учета фактора «неявного» цитирования;
- разработка метода определения порождающего документа в группе нечетких копий документов;
- разработка эффективного метода для определения результирующего показателя цитируемости документов;
- экспериментальное исследование предложенного метода для проверки его эффективности.
Научная новизна:
1. Предложен эффективный метод поиска неявных цитат в больших массивах документов (с оценкой 0(п)).
2. Разработаны критерии и предложен метод оценки документов в группе нечетких копий для определения порождающего документа.
Предложен метод вычисления показателя «неявной» цитируемости.
4. Предложен метод определения показателей цитируемости, основанный на методе Кляйнберга и учитывающий показатель «неявной» цитируемости.
Практическая ценность результатов работы. На основе предложенного метода разработана программное обеспечение для определения показателя цитируемости с учетом фактора «неявной» цитируемости. Разработанное программное обеспечение может бьггь использовано в системах информационного поиска, а также в системах рубрикации и в каталогах электронных документов с целью повышения эффективности ранжирования документов в выдаче. Также данное программное обеспечение может бьггь использовано с целью подавления информационно-поискового спама в выдаче ИПСГ так как его важной особенностью является высокая устойчивость определяемых показателей цитируемости к попыткам искусственного влияния извне. Разработанное программное обеспечение было внедрено в эксплуатацию ОАО «Сервис-*-».
Основные результаты, выносимые на защиту: Метод вычисления показателя «нежной» цитируемости.
• Метод определения порождающего документа в группе нечетких копий документов-.
• Усовершенствованный метод определения показателя цитируемости документов.
• Алгоритм повышения эффективности вычисления показателя цитируемости. с использованием оригинального метода учета фактора «неявного» цитирования.
Апробацшг работы. Основные результаты диссертации" бвгли представлены на X Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики» (Москва, 2007 г.) и на семинаре «Задачи системного анализа, управления и обработки информации» (Москва, 2006 г.).
Публикации. Основные результаты па теме диссертации опубликованы в 7 работах [70,71,86-90], из них 1 - в издании, включенном в перечень ВАК". Во всех работах, выполненных в соавторстве с научным руководителем, последнему принадлежит постановка задачи и общее руководство.
Структура и объем работы. Диссертационная работа состоит из введения, четырех глав, заключения и списка литературы, включающего 94 наименования. Материал изложен на 104 страницах машинописного текста, включая 5 таблиц и 9 рисунков.
Похожие диссертационные работы по специальности «Теоретические основы информатики», 05.13.17 шифр ВАК
Математическое и программное обеспечение методов схожести WEB-документов и выделение первичного документа из кластера дублей2011 год, кандидат технических наук Неелова, Наталия Валериевна
Математическое и программное обеспечение полнотекстового поиска в базах данных на основе концептуального моделирования2012 год, кандидат технических наук Колосов, Алексей Павлович
Модели и методы поиска информационных ресурсов с использованием семантических технологий2012 год, кандидат технических наук Нгуен Ба Нгок
Исследование и разработка методов и моделей поиска адекватной информации в полнотекстовых базах данных2004 год, кандидат технических наук Андриенко, Евгений Владимирович
Формализация процесса мониторинга информации в сети Интернет при создании предметно-ориентированных хранилищ данных2011 год, кандидат технических наук Леонов, Евгений Алексеевич
Заключение диссертации по теме «Теоретические основы информатики», Суриков, Анатолий Георгиевич
Основные результаты работы
В диссертационной работе получены следующие основные результаты:
- предложен метод вычисления показателя «неявной» цитируемости;
- разработан метод определения порождающего документа в группе нечетких копий;
- предложена оригинальная модификация метода вычисления показателей цитируемости Кляйнберга, учитывающая фактор «неявного» цитирования;
- предложен метод поиска неявных цитат в больших массивах документов с оценкой 0(п);
- разработан алгоритм вычисления показателя цитируемости документов, учитывающий фактор «неявного» цитирования;
- разработан алгоритм, основанный на методе «шинглов» для поиска цитат в больших массивах документов;
- предложенный метод поиска цитат экспериментально исследован на трех тестовых выборках документов, полученные результаты подтверждают его эффективность на выборках из случайных \уеЬ-страниц и научных статей.
Перспективы
Среди возможных направлений дальнейшего развития работы следует назвать, прежде всего, тщательное экспериментальное исследование эффективности предложенного подхода на разных выборках документов. Для этого необходимо параметризировать алгоритмы определения показателей цитируемости и разработать схему для их экспертной оценки. Также необходимо усовершенствовать структуры данных с целью устранения теоретической вероятности возникновения коллизий. При этом можно будет отказаться от процедуры пост-проверки, что существенно сэкономит вычислительные ресурсы. благодарности
Автор считает своим приятным долгом поблагодарить своего научного руководителя Геннадия Вадимовича Зеленко за помощь и участие.
Автор также выражает признательность Михаилу Васильевичу Ульянову и Алексею Васильевичу Рощину, оказывавшим в ходе работы помощь советами, замечаниями и рекомендациями.
заключение
Краткий обзор проделанной работы
В ходе работы были решены следующие задачи:
- произведен сравнительный анализ основных методов и алгоритмов учета внешних факторов, таких как ссылочная цитируемость; установлены основные недостатки существующих методов;
- произведен сравнительный анализ основных методов и алгоритмов поиска нечетких копий документов;
- разработан метод и алгоритм для определения показателя «неявной» цитируемости документов, базирующийся на модифицированном методе «шинглов» Манбера и Бродера; проведено экспериментальное исследование для установления его эффективности;
- разработан метод определения порождающего документа в группе нечетких копий;
- произведен сравнительный анализ основных методов и алгоритмов определения показателей цитируемости документов;
- разработан метод и алгоритм определения результирующего показателя цитируемости, базирующийся на модифицированном методе Кляйнберга и учитывающий показатель «неявного» цитирования;
- проведена теоретическая оценка вычислительной сложности разработанных алгоритмов и требований, которые предъявляются ими к объему вычислительной памяти;
- проведена экспериментальная оценка эффективности предложенного в работе метода и разработанного на его основе алгоритма определения показателя цитируемости документов с учетом фактора «неявного» цитирования.
Целью диссертационной работы являлось повышение эффективности алгоритмического и программного обеспечения для определения показателей цитируемости документов и учета фактора «неявного» цитирования. Полученные в ходе экспериментальных исследований данные, в целом, свидетельствуют об эффективности предложенного в работе метода. В частности показана эффективность на выборках из случайных \¥еЬ-страниц, а также на выборках, состоящих из научных статей электронной библиотеки.
Список литературы диссертационного исследования кандидат технических наук Суриков, Анатолий Георгиевич, 2008 год
1. Abiteboul, S., Vianu, V. Queries and Computation on the Web / S. Abiteboul, V. Vianu // Proceedings of the International Conference on Database Theory. 1997.2. . Albert, R., Barabasi, A., Jeong, H. Diameter of the World
2. Wide Web / R. Albert, A. Barabasi, H. Jeong. // Nature. -1999.
3. Bagdikian, В. Н. The Media Monopoly / В. Н. Bagdikian // Beacon 1997.
4. Berners-Lee, Т., Cailliau, R., Luotonen, A., Nielsen, H. F., Secret, A. The World-Wide Web / T. Berners-Lee, R. Cailliau, A. Luotonen, H. F. Nielsen, A. Secret. // Communications of the ACM. -№37.- 1994.
5. Berson, T. A. Differential Cryptanalysis Mod 232 with Applications to MD5 / T. A. Berson / EUROCRYPT. -1992.
6. Bharat,,K., Henzinger, M. Improved algorithms for topic distillation in a hyper-linked environment / K. Bharat, M. Henzinger. // 21st International ACM SIGIR Conference on Research and Development in Information Retrieval. -1998.
7. Brin, S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine / S. Brin, L. Page // http://www7.scu.edu.au/programme/fullpapers/1921/coml9 21.htm. -1998.
8. Chakrabarti, S., Joshi, M., Tawde, V. Enhanced Topic Distillation using Text, Markup Tags, and Hyperlinks / S. Chakrabarti., M. Joshi, V. Tawde // SIGIR'01, September. 2001.
9. Cho, J., Garcia-Molina, H, Page, L., Crawling, E. Through URL Ordering / J. Cho, H .Garcia-Molina, L. Page. E. Crawling // Seventh International Web Conference (WWW 98). -1998.
10. Cho, J., Sourashis, R. Impact of Search Engines on Page Popularity / J. Cho, R. Sourashis // http://oak.cs.ucla.edu/~cho/papers/cho-bias.pdf . UCLA. -2003.
11. Chowdhury, A., Frieder, O., Grossman, D., McCabe, M. Collection statistics for fast duplicate document detection / A. Chowdhury, O. Frieder, D. Grossman, M. // ACM Transactions on Information Systems (TOIS). №20. -2002.
12. Church, K., Gale, W. Poisson mixtures / K. Church, W. Gale. // Natural Language Engineering . 1995.
13. Del Corso, G. M., Francesco Romani, A. G. Comparison of Krylov subspace methods on the PageRank problem / G.
14. M. Del Corso, A. G. Francesco Romani. // Journal of Computational and Applied Mathematics. №210. - 2007.
15. Doreian, P. Measuring the relative standing of disciplinary journals / P. Doreian // Inf. Proc. And Management — № 24. -1988.
16. Doreian, P. A measure of standing for citation networks within a wider environment / P. Doreian // Inf. Proc. and Management. -№?>Q. -1994.
17. Donath, W. E., Homan, A. J. Lower bounds for the partitioning of graphs / W. E. Donath, A. J. Homan // IBM Journal of Research and Development. —№ 17. — 1973.
18. Egghe, L. Mathematical relations between impact factors and average number of citations / L. Egghe // Inf. Proc. and Management. -№ 24. 1988.
19. Fetterly, D., Manasse, M., Najork, M. A Large-Scale Study of the Evolution of Web Pages / D. Fetterly, M. Manasse, M. Najork // WWW2003. 2003.
20. Fielder, M. Algebraic connectivity of graphs / M. Fielder // Czech. Math. -./№23.-1973.
21. Frakes, W. B., Baeza-Yates, D., C. Information Retrieval: Data Structures and Algorithms / W. B. Frakes, D. C. Baeza-Yates //Prentice-Hall. 1992.
22. Frieze, A., Kannan, R., Vempala, S. Fast Monte-Carlo Algorithms for Finding Low-Rank Approximations / A. Frieze, R. Kannan, S. Vempala, // Proc. 39th IEEE Symp. on Foundations of Computer Science. 1998.
23. Gabrielli, S., Mizzaro, S. Negotiating a Multidimensional Framework for Relevance Space / S. Gabrielli, S. Mizzaro // In Proc. of the MLRA'99. 1999.
24. Gavin, J. Russia Has Fastest Growing Internet Population in Europe / J. Gavin // comScore. 2007.
25. Gibson, D., Kleinberg, J., Raghavan, P. Inferring Web Communities from Link Topology / D. Gibson, J. Kleinberg, P. Raghavan // Proc. 9th ACM Conference on Hypertext and Hypermedia. 1998.
26. Gibson, D., Kleinberg, J., Raghavan, P. Clustering Categorical Data: An Approach Based on Dynamical Systems / D. Gibson, J. Kleinberg, P. Raghavan // Proc. 24th Intl. Conf. on Very Large Databases. 1998.
27. Gravano, L.,Garcia-Molina, H., Tomasic, A. The Effectiveness of GIOSS for the Text-Database Discovery Problem. / L. Gravano, H. Garcia-Molina, A. Tomasic // Proc. of the 1994 ACM SIGMOD International Conference On Management Of Data. 1994.
28. Kaszkiel, M., Zobel, J., Sacks-Davis, R. Efficient Passage Ranking for Document Databases / M. Kaszkiel, J. Zobel, R. Sacks-Davis // TOIS. 1999.
29. Kao.,H. U., Lin, S.H., Ho, J. M., Chen, M. S. Entropy-Based Link Analysis for Mining Web Informative Structures / H. U. Kao, S. H. Lin, J. M. Ho, M. S. Chen // CIKM,02. — 2002.
30. Kleinberg, J., M. Authoritative Sources in a Hyperlinked Environment / J. M. Kleinberg // http://www.cs.cornell.edu/home/kleinber/auth.pdf. 2002.
31. Kolcz, A., Chowdhury, A., Alspector, J. Improved Robustness of Signature-Based Near-Replica Detection via Lexicon Randomization / A. Kolcz, A. Chowdhury, J. Alspector // KDD. 2004.
32. Kolcz, A., Chowdhury, A., Alspector, J. The Impact of Feature Selection on Signature-Driven Spam Detection / A. Kolcz, A. Chowdhury, J. Alspector // The First Conference on Email and Anti-Spam. 2004.
33. Kolcz, A., Chowdhury, A., Alspector, J. Improved Robustness of Signature-Based Near-Replica Detection via Lexicon Randomization / A. Kolcz, A. Chowdhury, J. Alspector // KDD 2004. http://ir.iit.edu/~abdur/publications/470-kolcz.pdf. 2004.
34. Lewis, D. Evaluating and optimizing autonomous text classification systems / D. Lewis // In Proc. of the SIGIR'95. -1995.
35. Lewis D. D., Schapire R. E., Callan J. P., Papka R. Training algorithms for linear text classifiers. In Proc. of the SIGIR'96, pp. 298-306, 1996.
36. Manber, U. Finding similar files in a large file system / U. Manber // USENIX Conference. 1994.
37. Marchiori, M. The Quest for Correct Information on the Web: Hyper Search Engines / M. Marchiori // The Sixth International WWW Conference (WWW 97). 1997.
38. McBryan, O. A. GENVL and WWWW: Tools for Taming the Web / O. A. McBryan // First International Conference on the World Wide Web. 1994.
39. Page, L. The PageRank Citation Ranking: Bringing Order to the Web / L. Page // http://hci.stanford.edu/~page/papers/pagerank.-1998
40. Park, S. T., Pennock, D., Giles C. L., Krovetz, R. Analysis of Lexical Signatures for Finding Lost or Related Documents / S. T. Park, D. Pennock, C. L. Giles, R. Krovetz // SIGIR'02. 2002.
41. Pinkerton, B. Finding What People Want: Experiences with the WebCrawler / B. Pinkerton // The Second International WWW Conference Chicago. 1994.
42. Rijsbergen, C. V. Foundation of evaluation / C. V. Rijsbergen // Journal of Documentation. 1974.
43. Rijsbergen, C. J. Information Retrieval / C. V. Rijsbergen // 2nd ed. Butterworths. 1979.
44. Robertson, S., Walker, S., Jones, S., Hancock-Beaulieu, M., Gatford, M. Okapi at trec-3 / S. Robertson, S. Walker, S. Jones, M. Hancock-Beaulieu, M. Gatford // The Third Text REtrieval Conference (TREC-3). 1995.
45. Shannon, C. E. A mathematical theory of communication / C. E. Shannon. // Bell system technical Journal. — №27. — 1948.
46. Shivakumar, N., Garcia-Molina, H. Finding near-replicas of documents on the web / N. Shivakumar, H. GarciaMolina // Proceedings of Workshop on Web Databases. -1998.
47. Schmidt, C. LocalRank: Google's 2 rankings & you /
48. C. Schmidt // http://clsc.net/research/googles-2-rankings.htm. -1997.
49. Spertus, E. ParaSite: Mining structural information on the Web / E. Spertus // Proc. 6th International World Wide Web Conference. -1997.
50. Tomlin, J., A. A new paradigm for ranking pages on the world wide web. / J. A. Tomlin // In Proceedings of the International World-Wide Web Conference. 2003.
51. Weiss, R., Velez, B., Sheldon, M., Manprempre, C., Szilagyi, P., Duda, A., Gifford, D. HyPursuit: A Hierarchical Network Search Engine that Exploits ContentLink Hypertext Clustering / R. Weiss, B. Velez, M. Sheldon, C. Manprempre, P. Szilagyi, A. Duda,
52. D. Gifford // Proceedings of the 7th ACM Conference on Hypertext. -1996.
53. Wilkinson, J., Zobel, J., Sacks-Davis, R. Similarity Measures for Short Queries / J. Wilkinson, J. Zobel, R. Sacks-Davis // TREC. 1995.
54. Wills, C. E., Mikhailov, M. Towards a better understanding of web resources and server responses for improved caching / C. E. Wills, M. Mikhailov // In Proceedings of the International World-Wide Web Conference. 1999.
55. Witten, I. H., Moffat, A., Bell, Т. C. Managing Gigabytes: Compressing and Indexing Documents and Images / I. H. Witten, A. Moffat, T.C.Bell // New York: Van Nostrand Reinhold. -1994.
56. Wright, M. H., Glassman, S. C. Fortran Subroutines to Solve the Linear Least-Squares Problem and Compute the Complete Orthogonal Factorization / M. H. Wright, S. C. Glassman // Stanford University. 1978.
57. Yang, Y. An evaluation of statistical approaches to text categorization. / Y. Yang // Information Retrieval. 1999.
58. Yang, Y., Pederson, J. Feature selection in statistical learning of text categorization. / Y. Yang, J. Pederson // In Proc. of the ICML'97. 1997.
59. Агеев, M. С., Губин, M. В., Добров, Б. В.,
60. Гасанов. Э. Э., Кудрявцев, В. Б. Теория хранения и поиска информации / Э. Э. Гасанов, В. Б. Кудрявцев // Наука. 2002.
61. Гасфилд, Д. Строки, деревья и последовательности в алгоритмах / Д. Гасфилд. // Невский диалект 2003.
62. Гулин, А., Маслов, М., Сегалович, И. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 // А. Гулин, М. Маслов, И. Сегалович // Труды РОМИП'2006. 2006.
63. Гулин, А., Маслов, М., Сегалович , И. Алгоритм текстового ранжирования Яндекса на РОМИП-2006 /
64. A. Гулин, М. Маслов, И. Сегалович // Труды РОМИП'2006.http://download.Yandex.ru/companv/03 vandex.pdf . — 2006.
65. Добрынин, В. Ю., Клюев, В. В, Некрестьянов, И. С. Оценка тематического подобия текстовых документов /
66. B. Ю. Добрынин, В. В. Клюев, И. С. Некрестьянов // Труды второй всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». — 2000.
67. Зеленков, Ю. Г, Сегалович, И. В. Сравнительный анализ методов определения нечетких дубликатов для \УеЪ-документов / Ю. Г. Зеленков, И. В. Сегалович // Девятая конференция КСБЬ. 2007.
68. Кристофидес, Н. Теория графов. Алгоритмический подход. / Н. Кристофидес // Мир. 1978.
69. Кнут, Д. Искусство программирования для ЭВМ. / Д. Кнут//Мир.-1976.
70. Кураленок, И. Е., Некрестьянов, И. С. Оценка систем текстового поиска / И. Е. Кураленок, И. С. Некрестьянов // Санкт-Петербургский Государственный Университет. 2004.
71. Лунегов, С. В., Некрестьянов, И. С. Нормализация документов для полнотекстового поиска / С. В. Лунегов, И. С. Некрестьянов // Труды Всероссийской научно-методической конференции «Интернет и современное сообщество»1 (1М8'98). — 1998.
72. Михайлов, Б. М., Ульянов, М. В. Инструментальные средства для исследования эффективности алгоритмов: концепция и основные принципы построения / Б. М. Михайлов, М. В. Ульянов // Информационные технологии. — №1. — 2006.
73. Некрестьянов, И. С., Некрестьянова, М. С. РОМИП'2003: отчет организаторов / И. С. Некрестьянов, М. С Некрестьянова / Труды РОМИП'2003. -2003.
74. Некрестьянов, И. С., Некрестьянова, М. С. РОМИП'2004: отчет организаторов / И. С. Некрестьянов, М. С Некрестьянова / Труды РОМИП'2004.-2004.
75. Некрестьянов, И. С., Некрестьянова, М. С. РОМИП'2005: отчет организаторов / И. С. Некрестьянов, М. С Некрестьянова / Труды РОМИП'2005. -2005.
76. Некрестьянов, И. С., Некрестьянова, М. С. РОМИП'2006: отчет организаторов / И. С. Некрестьянов, М. С Некрестьянова / Труды РОМШТ2006. -2006.
77. Райдингс, К., Вейл, Д., Садовский, А. Растолкованный PageRank / К. Райдингс, Д. Вэйл, А. Садовский // http://digits.ru/articles/promotion/pagerank.html.- 2002.
78. Сегалович, И., Тейблюм, Д., Дилевский, А. Принципы и технические методы работы с незапрашиваемой корреспонденцией / И. Сегалович, Д. Тейблюм, А. Дилевский // http://company.vandex.ru/articles/spamooborona.html . — 2004.
79. Сегалович, И., Маслов, М. Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс / И. Сегалович, М. Маслов // РОМИП-2004. http://romip.ru/romip2004/07 vandex.pdf. 2004.
80. Сегалович, И. В., Зеленков, Ю. Г., Нагорнов, Д. О. Методы сравнительного анализа современных поисковых систем и определения объема Рунета / И. В. Сегалович, Ю. Г. Зеленков, Д. О. Нагорнов // Восьмая конференция ИСБЬ. 2006.
81. Суриков; А. Г. Численное выражение обобщенной асессорской оценки релевантности в решении задачи информационного поиска / А. Г. Суриков // Проблемы полиграфии и издательского дела: Известия высших учебных заведений. №2. - 2007.
82. Суриков, А. Г. Неявное цитирование как показатель релевантности в информационном поиске / А. Г. Суриков // Задачи системного анализа, управления и обработки информации (межвузовский сборник научных трудов). №2. - 2006.
83. Суриков, А. Г. Реализация поиска текстовых шаблонов с помощью конечных автоматов / А. Г. Суриков // Вестник МГУПИ. №3. - 2007.
84. Суриков, А. Г. Факторный анализ на больших выборках данных / А. Г. Суриков // Межвузовский сборник научных трудов «Программное и информационное обеспечение систем различного назначения на базе персональных ЭВМ» . — № 10. — 2007.
85. Трофименко, Е. Оптимизация расчета ссылочной популярности и учета ее при ранжированиирезультатов поиска / Е. Трофименко // http://companv.vandex.ru/grant/2005/06 Тгойтепко 1018 03.pdf. 2005.
86. Ульянов, М. В. Классификация и методы сравнительного анализа вычислительных алгоритмов / М. В. Ульянов // Монография. 2004.
87. Ульянов, М. В., Головешкин, В. А. Метод классификации вычислительных алгоритмов по сложности на основе угловой меры асимптотического роста функций / М. В. Ульянов, В. А. Головешкин // Вычислительные технологии. № 1. - 2006.
88. Харари, Ф., Палмер, Э. Перечисление графов / Ф. Харари, Э. Палмер. / Мир. 1977.
Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.