Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет тема диссертации и автореферата по ВАК РФ 05.13.15, кандидат технических наук Лысенко, Дмитрий Сергеевич

  • Лысенко, Дмитрий Сергеевич
  • кандидат технических науккандидат технических наук
  • 2011, Москва
  • Специальность ВАК РФ05.13.15
  • Количество страниц 119
Лысенко, Дмитрий Сергеевич. Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет: дис. кандидат технических наук: 05.13.15 - Вычислительные машины и системы. Москва. 2011. 119 с.

Оглавление диссертации кандидат технических наук Лысенко, Дмитрий Сергеевич

Введение.

Глава 1. Обзор и анализ поисковых систем российского Интернет.

1.1. Понятие, характеристики и устройство поисковой системы.

1.2. Поисковые системы Рунет.

1.3. Яндекс.

1.4. Google.,.

1.5. Выводы.

Глава 2. Определение факторов, участвующих в формуле ранжирования.

2.1. Группы факторов, влияющих на релевантность.

2.2. Определение факторов, участвующих в формуле ранжирования, методом экспертных оценок.

2.3. Выводы.

Глава 3. Метод поисковой оптимизации.

3.1. Составление семантического ядра.

3.2. Распределение ключевых слов по страницам.

3.3. Внутренняя оптимизация.

3.4. Указание главного зеркала, настройки скриптов.

3.5. Определение внешне-ссылочной конкуренции.

3.6. Источники внешних ссылок.

3.7. Выводы.

Глава 4. Поисковая оптимизация веб-сайта единой коллекции образовательных ресурсов (http://school-collection.edu.ru/).

4.1. Анализ источников посетителей и постановка задачи поисковой оптимизации портала.

4.2. Анализ текущей оптимизации портала.

4.3. Оптимизация портала.

4.4. Результаты работ по оптимизации портала.

Рекомендованный список диссертаций по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Введение диссертации (часть автореферата) на тему «Метод поисковой оптимизации веб-сайтов в российском сегменте сети Интернет»

Актуальность работы

С развитием глобальной сети Интернет и ростом количества документов, размещенных в ней, возникла проблема поиска информации. На сегодняшний день в большинстве случаев ее решают поисковые системы [21], которые определяют список документов, соответствующих (релевантных) запросу пользователя. Таких документов могут быть миллионы, и задача поисковой системы - расположить найденные документы в порядке убывания релевантности. Процесс упорядочивания документов называется ранжированием.

Релевантность определяется на основе свойств как документа, так и запроса пользователя. Эти свойства называются факторами ранжирования, число их может достигать нескольких сотен. Каждый из факторов вносит свой вклад в формулу ранжирования, которая в ответ на запрос пользователя определяет порядок документов в результатах поиска. Среди этих факторов могут быть, например, наличие слов запроса пользователя в заголовке и тексте документа, география пользователя (результаты поиска для пользователя из Санкт-Петербурга будут отличаться от списка при поиске из Москвы) и множество других.

Рост объемов информации, индексируемый поисковыми системами, порождает постоянное развитие алгоритмов. За последние несколько лет реализовано множество нововведений. Например, поисковые системы [28] научились определять первоисточник документа (для исключения из результата поиска дубликатов), реализовали поиск с учетом региона пользователя и многое другое.

При этом поисковые системы не в состоянии определить качество и достоверность индексируемой информации, в том числе в сфере образования и образовательных ресурсов. На протяжении многих лет ведутся работы по созданию и развитию Федеральной системы информационно-образовательных ресурсов (далее - ФСИОР). Основными элементами ФСИОР являются: информационная система «Единое окно доступа к ресурсам образовательных порталов» (http://window.edu.ru')., Федеральный образовательный портал «Российское образование» (http://edu.ru). Единая коллекция цифровых образовательных ресурсов (http://school-collection.edu.ru). ФСИОР содержит только качественные и достоверные образовательные ресурсы, которые помогают решать различные задачи в информатизации сферы образования. ФСИОР получает свыше 90% своего пользовательского трафика через поисковые системы, что составляет около 4,5 млн. переходов из поисковых систем ежемесячно (суммарные показатели для http://window.edu.ru, http://edu.ru и http://school-collection.edu.Ri на основе данных Liveinternet). При изменении формулы ранжирования поисковой системы меняется релевантность документов, позиции документов ФСИОР в результатах поиска, а, следовательно, и трафик, получаемый через поисковые системы. Важной задачей является не только сохранение текущих показателей трафика, но и его повышение [5, 6, 24]. Поставленную задачу решает поисковая оптимизация [1] - комплекс мер по анализу алгоритмов (формул ранжирования) поисковых систем и повышения релевантности документов запросам пользователей [30, 26].

Исследование работы поисковых систем [18, 31] и вопросы повышения релевантности документов запросам пользователей проводились В. Д. Байковым [3], Д.Н. Колисниченко, Н.В. Евдокимовым [11, 12, 13], И.С.Ашмановым [2], A.A. Ивановым, A.A. Яковлевым [42, 43] и другими авторами [32, 40, 41]. В них рассматривались факторы, влияющие на ранжирование в поисковых системах. Формулы ранжирования поисковых систем претерпели значительные изменения за последние 2-3 года, и результаты работ вышеперечисленных авторов неактуальны.

Поскольку использование поисковых систем растет и останется таковым в обозримом будущем, проведенные в диссертации исследования 5 являются актуальными и имеют важное практическое значение, так как позволяют увеличить посещаемость ФСИОР путем повышения видимости по целевым запросам в поисковых системах [23].

Целью работы является повышение посещаемости Федеральной системы информационно-образовательных ресурсов по целевым запросам к поисковым системам Рунет.

В качестве исследуемых поисковых систем, для которых производилась оптимизация, были выбраны наиболее популярные и прогрессивные Яндекс (www.yandex.ru) и Google (www.Roogle.ru). Исследование остальных известных поисковых систем Рунет неактуально: Aport fwww.aport.ru) - развитие прекращено в середине 2000-х годов, Rambler (www.rambler.ru) - развитие также остановлено, рассматривается использование поиска от Google. Портал Мэйл.ру (www.mail.ru) является в первую очередь развлекательным порталом и почтовым сервисом, поисковая система которого вторична, и трафик с Мэйл.ру для ФСИОР составляет менее 3%. , .

Для достижения цели решены следующие задачи:

- проведен анализ современных поисковых систем, используемых в российском сегменте сети Интернет;

- разработана система факторов, участвующих в формулах ранжирования поисковых систем;

- разработан метод поисковой оптимизации, проведена поисковая оптимизация Единой коллекции цифровых образовательных ресурсов (http://school-collection.edu.ru) и проанализированы ее результаты.

На защиту выносятся: |

- результаты анализа современных поисковых систем;

- составление семантического ядра;

- метод поисковой оптимизации;

- реализация метода поисковой оптимизации для образовательного портала

Единой коллекции цифровых образовательных ресурсов. 6

Научная новизна полученных результатов заключается в следующем:

- разработке системы факторов, участвующих в формулах ранжирования поисковых систем;

- формировании семантического ядра;

- разработке метода поисковой оптимизации.

Практическая ценность результатов в том, что применение разработанного метода поисковой оптимизации позволяет повышать посещаемость интернет-ресурсов по целевым запросам.

Достоверность и обоснованность результатов диссертации основаны на обобщении и развитии десятилетнего опыта работы в области поисковой оптимизации, позволившего в максимально полном объеме определить набор факторов, участвующих в формулах ранжирования поисковых систем; на положительном опыте в поисковой оптимизации некоммерческих и коммерческих как небольших веб-сайтов, так и крупных порталов.

Методы исследований

При решении поставленных.в .диссертации задач применялся метод экспертных оценок, метод шинглов для определения схожести документов. Реализация и внедрение результатов исследований Результаты диссертационной работы внедрены и эффективно используются в Федеральном государственном учреждении «Государственный научно-исследовательский институт информационных технологий и телекоммуникаций» (ФГУ ГНИИ ИТТ «Информика»), Петрозаводском государственном университете. Апробация работы

Основные положения диссертации докладывались на семинарах ФГУ

ГНИИ ИТТ «Информика», Международной научно-технической конференции «Проблемы автоматизации и управления в технических системах» (Пенза, 2007), Всероссийской научно-практической конференции 7

Информационные технологии в образовании и науке» (Москва, 2007), Всероссийской научно-технической конференции «Телематика» (Санкт-Петербург, 2007, 2009), Материалы международной научной конференции 1Т&Т ЕБ (Турция, 2007), Материалы международной научной конференции «Новые информационные технологии и менеджмент качества» (Турция, 2007).

Публикации

Результаты диссертационной работы отражены в восьми опубликованных печатных работах. В том числе есть две статьи в журналах, включенных в перечень ВАК.

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, списка литературы и приложения. Объем диссертации - 117 страниц. Работа содержит 31 рисунок, 6 таблиц.

Похожие диссертационные работы по специальности «Вычислительные машины и системы», 05.13.15 шифр ВАК

Заключение диссертации по теме «Вычислительные машины и системы», Лысенко, Дмитрий Сергеевич

3.7. Выводы

В третьей главе описаны этапы проведения поисковой оптимизации веб-сайта: от составления семантического ядра, оптимизации текстов и структуры до определения внешнессылочной конкуренции и наращивания ссылочной массы.

Глава 4. Поисковая оптимизация веб-сайта Единой коллекции образовательных ресурсов (http://school-collection.edu.гиЛ

Практическая реализация работы представлена поисковой оптимизацией веб-сайта «Единой коллекции образовательных ресурсов». Необходимость в поисковой оптимизации портала возникла в 2008 году после анализа источников посетителей - количество поискового трафика могло быть существенно увеличено [19].

4.1. Анализ источников посетителей и постановка задачи поисковой оптимизации портала

Свыше 80% трафика портала (рис. 4.1) в 2008 году составляли переходы из поисковых систем. Количество переходов на сентябрь 2008 года с Яндекс и Google составляло 137 тыс. в месяц с каждой из них.

• «}•. rschool-colecöan.edy.iit' Пдаекз Вид ИЛ*«»*13* Сервис Справка t.дина»*аплвхч*я Цифровых Обрмюмтелных Р. . i :5Й >5: .: ix >:

СЯШ

--.--■.: J:. .•.'„•; .-ic.

Vi'MSM-^.V.A ivSCili i

0обрес>»кы>:олп9«гцим лрзднэзяочены только .аяя • ■ ь-ятемм^всхогс игпзль здания s эдтеыв oCpaJcesHw Р&с£ийсхсй ^föm'« шт лх 1 i л

• . ::■;■ •;•:• . ЗЗйЙ шшшшшшшшшшшш i i'i&X&iS.

JJJJ ,ч •• i 5; vitvw * • !'л-1А jj'JJ. »WX'li'Xv Ж

Э&Ю хЖр-А : '52016

Л*нтв нзкостей.'::::: ;■;'::,•>::. « 10.20 № ••.

1« " 0.201 е

Лейта rtot^TSli: :::::::: -у

И .103010

Рис. 4.1. Портал Единая коллекция образовательных ресурсов

По результатам анализа структуры портала, целевой аудитории, а также запросов, по которым возможно получение дополнительного трафика из поисковых систем, было принято решение подбирать не высокочастотные и общие запросы («образование», «обучение» и т.д.), а сосредоточиться на поисковой оптимизации каталога образовательных ресурсов, который является главной ценностью портала. Целевыми запросам каталога являются названия учебной литературы, а также отдельные главы и темы учебников («причастный оборот», «науки о человеке», «теорема Пифагора» и др.).

Была поставлена задача оптимизации внутренних страниц и внутренней ссылочной структуры под поисковые запросы [15].

4.2. Анализ текущей оптимизации портала

В ходе анализа текущую структуру портала были выявлены недостатки в HTML-коде страниц. На страницах с карточками цифровых образовательных ресурсов отсутствовали ключевые слова в важных для поисковых систем тегах. Поисковым роботом Яндекс было проиндексировано около 25 тыс. страниц, часть из которых являлась версиями для печати страниц. Такие страницы не содержат уникальной информации для поисковой системы, т.к. являются дубликатами с отсутствующими элементами дизайна.

В ходе анализа структуры внутренних гиперссылок было установлено, что портал содержит порядка 26 тыс. страниц в форматах, индексируемых поисковыми системами. Большая часть страниц портала создана в формате HTML (около 70%), остальные 30% составляли документы в форматах Microsoft Word, Adobe PDF, Microsoft Excel, а также ряд мультимедийных форматов.

В ходе анализа уникальности текстовых документов с помощью программы Advego Plagiatus fhttp://adve go.ru/plagiatus/) было установлено, что документов с уникальностью 90% и выше на портале около 70% от общего числа. Уникальность остальных документов находилась в пределах от 30 до 89%. Высокий процент неуникальных документов обусловлен тем, что цифровые образовательные ресурсы содержат множество учебных материалов (теоремы, правило, леммы и т.д.), текст которых не может быть подвержен изменениям. Аналогичная ситуация существует среди юридических порталов и веб-сайтов, которые содержат множество нормативных документов.

В данном случае существует два варианта решения проблемы. В первом случае, если веб-сайт обладает большим уровнем доверия с точки зрения поисковой системы, можно размещать неуникальные документы без изменений. Но при этом общий прирост неуникальных документов, по сравнению с приростом уникальных, должен находиться в соотношении один к двум, и более. Второй вариант решения проблемы состоит в написании уникальных комментариев или пояснений к текстам этих документов. Таким образом, повышается общая уникальность страницы.

Для выбора варианта необходимо определить два параметра: примерное соотношение уникальных документов к заимствованным, а также, что наиболее важно, процент индексации веб-сайта. К примеру, веб-сайт имеет 1000 страниц, разрешенных для индексации, а в базе поисковой системы хранится всего 400. Низкий процент индексации (менее 90%) в течение 1-2 месяцев после размещения документов на веб-сайте может говорить о том, что поисковый робот игнорирует неуникальные документы.

Процент индексации страниц портала «Единой коллекции образовательных ресурсов» поисковыми системами превышал 90%, и дополнительного придания уникальности документам не требовалось.

В структуру внутренних гиперссылок портала также должны быть внесены изменения. Анкоры содержали недостаточное количество ключевых слов, поэтому страницы-доноры передавали акцепторам меньшую релевантность. При рассмотрении множества внутренних ссылок на отдельно взятую страницу был выявлен большой процент ссылок с одинаковыми анкорами, что также понижало релевантность.

98

Количество внешних ссылок, найденное через поисковые системы Yahoo, Altavista и Alexa, было равным 600 [37]. Все ссылки были естественными, т.е. пользователи проставляли их добровольно, и не было замечено купленных через биржи ссылок. Все ссылки имели разнообразные анкоры (рис 4.2), около 50% из них ссылались на главную, остальные - на различные внутренние страницы. Сайт имел большое количество внешних ссылок с главных страниц и в совокупности всего перечисленного обладал достаточным уровнем доверия с точки зрения поисковых систем.

3.&ГЙЙГН¡Xisxsmxt. 61 www, seddnovo.prûlirn.ru 1 ЦОР http://www. schod-cokchon edu. ru и www.Qomulina.orc, ru/index t,htnj t ЦОР. Коллекция интерактивных эадангй rio фиэике http.//schod<ciectk)n.edu.ru/cafcalog/rub/ïbûl 1676-Ьв57 2653^1 144M99W

63 www.opercla5S.ru/communiticsyS3469 2 Едиюй коллекции цифровых обраэсеателы*>к ресурсов http://schcxil-colectinn.edu.ru/

64 www. 5 t .nj/hewt/pr essreise.)sp?ttl=74fi 2 hthp://school-c olectior.edu.ru/ http://school-rnlectDn.edii.ru/

65 pedsovet .org/content/v»w/28U4/443/ 2 http://schoot-coeecdor.edu.ru/ http://school-colec,r)n.edu.ru/ 66 lhip.su ~2 n/t http://cchooi-colection.edu.ru/ 67 www.nguo.ru 2 Единая коллекция цифровых обраооеательнь» ресурсов http://school-colection.edu.ru/ 66 schod3.strel.tsu.ru 1 п/а

69 metodist .bz. ru/lecttons/ 1 сайте hittp://www school-coBection.edu ju/ 70 gim2.ru 1 пД http://school-colectlon.edu.ru/

А 71 eng.ntf.ru l "А http://schooi-colectlon.edu.ru/

9 72 7thschool.ru X Единая коллекция цифровых образовательны* ресурсов http://school-colection.e0J.ru/ 73 www.tlkay.ru 1 Ед иная коллекция Цифровых Образовательных Ресурсов httpr//school-colecrion.edu.ru/ 74 denttra.znaet.ru 1 n/ten/t http://school-colection.edu.ru/ • http://schaol-cofledon.edu.ru;

7S reoeckn. tambor.ivi'piv/obr«i/ 1 пД http://sthool-«iection,edu.ru/

76 www.radmuseumart.ai/pages/irdex.asp?)dpag. 4 «А . http://schod-cd^t fcn.edu.ru/cataiogAufr/b0^3cf*6^

77 www.buicfc.samochodifa.rif o/ru/%D04WA%Oa. 1. лЦ .

76 www.ed.gov.ru/edusupp/rformedu/3505/ 3 Относительность деления элементов na металлы и неметаллы, • П. http://schoobcolection.edu.ru/dirstore/0ab8fl79-4ie5-l Idb-b0de-(»u020üc9a66/x9l

79 1еййй.ги/|П(кХ.^/%С<ГУ.92%00%ве%00%. 2 http; //schooi-coüecbon .edu.ru http://schooi-colectlop.edu.ru/

60 www.lmuxcenCer.ru/news/2OlÖ/Ö$/O6/l0e30/ l стандарту ЦОР • Ед»*юй коллекции ЦОР http://schooi-coledlon.edu.ru/deve(op/cor/spec/ • http://sdvjol-colection.edu.ru/

Cl wo.me/PJarX"ja 1 п/а

62 www.youtube.com/watch7v-Eua2S7RWbEs 2 http://schooi-calectlon.edu.rU/catal.w http://sct»ol-cblectton.edu.ru/catalog/res/2cccc07d-b0ee-42e2-e667-c86fbe2747et/'g

83 sltos.google com/sKe/dpoamursfc/ 2 Коллекция ЦОР http://school-colectlon,edu.ru/ 84 «йс.ЭсКги 2 Единая коллекция ЦОР http;//sdiool -col 6cti0n.eou.ru/ SS ■nc.rfcc-74.ru 3- подробнее • шдробнве « подрпбмее » подробнее http://sdxxrf-cciection.edij.ru/fwws/edu/2069/ • http://school-cglectnn.edü,ru/news/« $ 86 wwwjrmloro ru 2 ЦИОР http://school-colectEin.edu.ru/ 87 www.profil.3drt.ru 1 Ед»4чая коллекция Цифровых Обра зова re льны х Ресурсов http://schooi-ColectKm.edu.riV 88 u7a.0penet.ru 2 рД • Единая коллекция цифровых образовательных ресурсов http://schooi-col ectoi.edu.ru/ • http//schgci-c ofection.edu. ru/ 89 0br.lc.ru/catal0g.1spPaux-15 7 www.«bool-cofectton.eAj.nj http://www. schooi-cofectiOn.eAj.ru/

------- i

ШЦМСУК« 1^<и».Яки«.><«Т«><«. вОЯЬЗФ.эеп««:::*.':

НЛ«» «иное сгаюыил -<тка**х »Лиа«с.<»т»погв-о.

•оивйга-о.саотж с .айн» — КО, с • »шкс.К.М'яге—С.

Рис. 4.2. Внешние ссылки единой коллекции образовательных ресурсов

С учётом всего этого дополнительной ссылочной массы для оптимизации страниц каталога по целевым запросам не требовалось. Была поставлена задача повышения текстовой и внутриссылочной релевантности (см. ф. 2.2).

4.3. Оптимизация портала

Исходя из поставленных задач поисковой оптимизации страниц портала единой коллекции образовательных ресурсов были внесены изменения в программный код портала [22]. Ключевые слова каждой страницы прописаны в тегах <Ш1е> и <Ы>. В результате т.н. «карточка ресурса» в оптимизированном виде, рис. 4.3:

3 <»*» - Г юлоо« и сбшество. О6ще<тео»«ние. Икпас . | I Сто»«»« 6г>оо»лХ1». Ся 111

• ^мвчкодс*. .ЛУ м-*::*-; гданаф?:.»'* ул <*•«

•■ С' '-*.-:'.

-.- V: у.'уЛу.ъУ* су. у^у'.у:"** ысашз нгйгл с Ж йюмтжяи •■

БС

-¿Ыитсичм«». 13 кяга Стьян Е -г Су.и^яд >С.Г.

334

Рис. 4.3. Оптимизация карточек ресурсов портала

До проведения оптимизации документа ключевое слово «Человек и общество» было употреблено на странице один раз и не использовалось в тегах, которые дают бонус за форматирование (см. ф. 2.4)

4.4. Результаты работ по оптимизации портала

В результате комплекса работ по поисковой оптимизации посещаемость портала в сентябре 2010 года составила 782 ООО посетителей месяц, т.е. в 6,1 раза больше, чем в 2008 году, рис. 4.4:

Трафик с Яндекс увеличился в 4,1 раз (со 137 тыс. до 569), с Google - в

3 раза

Рис. 4.5. Переходы из поисковых систем с 137 тыс. до 414 тыс.), рис. 4.5:

Если рассматривать точки входа, т.е. страницы, на которые попадают пользователи при переходе на портал, то значительно возросло количество страниц каталога (страницы начинаются с '/catalog/'), рис. 4.6: отчет: тводгахвА» на сайт r; ^ ги» месяцам сгкгяЗгь2 21 Cr asrycT 2 Д1С г. E CpS^r -a 3 «es>

Щ .1 . . . . . ■58,96* ■4- Ь5.1с1 S.-»¿ 25.42.0 5

Р cata:cs< 8,344 Sis 1521- ; ? ш SJt

W cata ац!ъЪт:т&2\ S-ScaS-1 i а а-а?2в-С?-С. t.SIS :Л J «t 0.3 íí í SJ-? 3 щ 5.145 3 1. 3 3% 2.445 5 г сага :с вй-м bttäf 53721S-55 а£-11 i а-а?2 5-525 3 1 Sc Л У '! 1.875 J

4.Ш 3 45*. S6S 3 -t« 1.SS4 3

Р caí а ф Sí'ri. S-í 5 -4¿S- 31 -a=4 ., 2¿S 0 "!•* 1.41? o 34 i cata k> з?П» tifi?5á&e ea3-J-a2 sc-í a 3c-Sb4&-ü5 5. 3,783 151 З.Г?£ 1 31? Л f caíass^üu« 3 1.1 IS ^. • ii 1 731 Л J f. cata ® s 'Yü f? 2 1С -11 a a -a * 2 s -C 2 С., 5.2S2 3 £ OOí: 1.125 3 —H j.ise Л V 3% чс 5 í,v

V-, 154 2 a* 25? 3 1.254 cata io afryerí SfSs 7210-5£ас-11 o з-з72з-СоС . 2.974 3 J^s 1*1 3.1^ 1.102 0 г 2.9V4 n V 21; 8£5 O.f'i 1.429 у*** Í cata»otráWa-500§S8&-¿fc:8c-11 áfc-cí 55-820. ■ч je ¡* a. v'C"^ vi л f«' 34% i } ¿«ív 5 г cata:« ¡*®fStf721С í 5 a -5 72 íj-CS 0. 2.522 3 3% Л 0.3?-. 3 ZH г cata le aMiferíSdáS 1 af2 Ss-dOSö-Га 1. . 2.73« 3 3*<j ¿•S3 3 2=* i.1 í2 ^ casa»üfru&sBSíH277£-á?b5~ct<c;-ai ía-8ca . 254! 0 í-rt 1.515: J 2%

Г- cataicí-^twSfSo?210-гва€-11ca-s72í>-GSS . 2.4*4 10 3 522 3 caía la о- ^с.<-"зе22а cr-Sa С1 -С t52-012; -sä«. 2.554 3 2*4 211 3 S22 3 cata icSíVíAr? a21«ác$3-aa«4-4SaS-aáSS-254 . 2,533 3 с л с 3.2% ST*5 3

Рис. 4.6. Точки входа

Сравнивая количества переходов на страницы каталога портала в сентябре 2008 и 2010 года из результатов поиска Яндекс и Google, получим, что данные показатели возросли более, чем в 3 и 1,5 раза соответственно.

На основе этого можно сделать вывод о правильной постановке задачи поисковой оптимизации, которая подразумевала повышение релевантности по низко- и среднечастотным запросам пользователей в поисковых системах. Данный метод отлично подходит для оптимизации веб-сайтов и порталов, содержащих большое количество документов (от 1000). Для веб-сайтов с небольшим количеством страниц выбирают чаще средне- и высокочастотные запросы, которые обеспечат больший трафик.

Заключение

В диссертационной работе на основе метода экспертных оценок поставлена и решена задача определения факторов, влияющих на ранжирование.

К основным результатам, полученным в диссертационной работе, относятся:

1. Результаты анализа поисковых систем Рунет, позволяющие определить основные принципы ранжирования документов.

2. Результаты анализа подходов при определении релевантности текстовых документов, а также определение ссылочной релевантности, позволивших выявить основные принципы ранжирования результатов поиска.

3. Полученная система критериев, участвующих в формулах ранжирования поисковых систем, на основе метода экспертных оценок. Для каждого критерия определена важность в рамках шкалы от 0 до 1 с шагом 0,1.

4. Разработанный метод поисковой оптимизации на основе факторов, участвующих в формулах ранжирования поисковых систем, позволяющего повышать посещаемость веб-сайтов.

5. Применение предложенного в диссертации метода для проведения поисковой оптимизации веб-сайта Единой коллекции образовательных ресурсов, который позволил повысить посещаемость Единой коллекции образовательный ресурсов в 6 раз.

Список литературы диссертационного исследования кандидат технических наук Лысенко, Дмитрий Сергеевич, 2011 год

1. Ашманов И.С., Иванов A.A. Продвижение сайта в поисковых системах. М. : Вильяме, 2007. - 304 с.

2. Ашманов И.С., Иванов A.A. Оптимизация и продвижение сайтов в поисковых системах. СПб. : Питер, 2009. - 400 с.

3. Байков В. Д. Интернет. Поиск информации. Продвижение сайтов. — СПб. : БХВ-Петербург, 2000. 288 с.

4. Бенкен Е. PHP, MySQL, XML. Программирование для Интернета. -СПб. : БХВ-Петербург, 2007. 336 с.

5. Булакина М.Б., Лысенко Д.С., Чайников Ю.С. Увеличение посещаемости портала «Российское образование» на основе анализа поисковых запросов // Труды XIV Всероссийской научноIтехнической конференции «Телематика 2007». СПб., 2007. - с. 366 -369.

6. Гридина Е.Г., Лысенко Д.С. Использование поисковых систем для увеличения посещаемости федеральной системы информационно-образовательных ресурсов // Научно-практический журнал «Открытое образование» № 3, 2009. с. 43 - 48.

7. Губин М.В. Модели и методы представления текстового документа в системах информационного поиска: дис. . канд. физ.-мат. наук: 05.13.11.-СПб., 2005.

8. Гусев B.C. Аналитика веб-сайтов. Использование аналитических инструментов для продвижения в Интернет. М.: Диалектика, Вильяме, 2008. - 176 с.

9. Дамашке Г. PHP и MySQL = PHP & MySQL. М.: НТ Пресс, 2008.320 с.

10. Дорнфест Р., Бош П., Калишейн Т. Секреты Google. Трюки и тонкая настройка. = Google Hacks: Tips & Tools Finding and Using the World's Information. Б.м.: Русская Редакция, 2008. - 748 с.

11. Евдокимов Н. В. Раскрутка Web-сайтов. Эффективная Интернет-коммерция. М.: Вильяме, 2007. - 160 с.

12. Евдокимов Н., Лебединский И. Раскрутка веб-сайта. Практическое руководство. М.: Вильяме, 2011. - 288 с.

13. Евдокимов Н.В. Основы контентной оптимизации. Эффективная интернет-коммерция и продвижение сайтов в интернет. М : Вильяме, 2007. - 160 с.

14. Зандстра М. РНР. Объекты, шаблоны и методики программирования = PHP: Objects, Patterns, and Practice. M.: Вильяме, 2011. - 560 с.

15. Зуев М.Б., Маурус П.А., Прокофьев А.Г. Продвижение сайтов в поисковых системах. Спасательный круг для малого бизнеса. М.: Бином, 2007. - 304 с.1. Г " ' 1 '

16. Интернет-маркетинг на 100%. СПб. : Питер, 2009. - 240 с.

17. Клифтон Бр. Google Analytics. Профессиональный анализ посещаемости веб-сайтов. = Advanced Web Metrics with Google Analytics. M.: Вильяме, 2009. - 400 с.

18. Колисниченко Д. Н. Поисковые системы и продвижение сайтов в Интернете. М.: Диалектика, 2007. - 272 с.

19. Кошик А. Веб-аналитика. Анализ информации о посетителях вебсайтов. = Web Analytics: An Hour A Day. M.: Диалектика, Вильяме, 2009. - 464 с.

20. Кузнецов М., Симдянов И. PHP. Практика создания Web-сайтов. -СПб. : БХВ-Петербург, 2008. 1244 с.

21. Ландэ Дм. Поисковые системы: Поле семантика // InfoStream. -2004.

22. Лысенко Д.С., Гридина Е.Г. Факторы формул ранжирования поисковых систем Яндекс и Google // Журнал «Качество. Инновации. Образование» № 3, 2011. с. 35 -41.

23. Лысенко Д.С., Блажнов Э.Е., Булакина М.Б. Поисковая оптимизация Федерального портала «Российское образование» // Информационные технологии и телекоммуникации в науке и образовании (IT&T

24. ES'2007). Материалы международной научной конференции. Редкол. : Тихонов А.Н. (пред.) и др. ФГУ ГНИИ ИТТ «Информика». М.: ЭГРИ, 2007. - с. 17 - 19.

25. Маслак A.A. Критерии оценки качества текстов / Труды межд. симпозиума Формирование контингента инж.-тех. вуза: мировой опыт и основные тенденции развития. М.: 2004. - с. 58 - 60.

26. Мидоу Ч. Анализ информационно-поисковых систем. М. : Мир, 1970.-368 с.

27. Орлов А.И. Экспертные оценки // учеб. пособие. М., 2002.

28. Севостьянов И. Поисковая оптимизация. Практическое руководство по продвижению сайта в Интернете. Б.м.: Питер, 2010. - 240 с.

29. Сегалович И., Маслов М., Зеленков Ю. Цели и результаты программы научных стипендий Яндекса. М.: 2005. - с. 7 - 17.

30. Сергеев А.П. Раскрутка сайтов и основы электронной коммерции. Краткое руководство, г-М;:,Диалектика, 2005. 256 с.

31. Сирович Дж., Дари Кр. Поисковая оптимизация на PHP для профессионалов. Руководство разработчика по SEO. = Professional Search Engine Optimization with PHP: A Developer's Guide to SEO. M. : Диалектика, Вильяме, 2008. - 352 с.

32. Скляр Д., Трахтенберг А. PHP. Рецепты программирования PHP Cookbook. Спб.: БХВ-Петербург, 2007. - 736 с.

33. Солтон Дж. Динамические библиотечно-поисковые системы. М.: Мир, 1979. - 558 с.

34. Суэринг Ст., Конверс Т., Парк Дж. PHP и MySQL. Библия программиста. = PHP 6 and MySQL 6: Bible. M.: Диалектика, 2010. —912 с.

35. Тероу Ш. Видимость в Интернете. Поисковая оптимизация сайтов. = Search Engine Visibility. Б. м.: Символ-Плюс, 2009. - 288 с.

36. Уайт Э., Камаль Э. Дж. Статистические методы работы с электронными документами в библиотечной сфере, или Э-метрики. -М. : Омега-Л, 2006. 393 с.

37. Федоровский А.Н, Костин М.Ю. Mail.ru на РОМИП-2005.: сб. / Труды третьего российского семинара по оценке методов информационного поиска. СПб.: НИИ Химии СПбГУ, 2005. - с. 106 -124.

38. Фролов И.Л., Перелыгин В.А., Самойлов Е.Э. Разработка, дизайн, программирование и раскрутка web-сайта. М.: Триумф, 2009. - 302 с.

39. Энж Э., Спенсер Ст., Фишкин Р., Стрикчиола Дж. SEO — искусство раскрутки сайтов. = The Art of Seo. СПб.: БХВ-Петербург, 2011. -592 с.

40. Яковлев А. А. Раскрутка и продвижение сайтов: основы, секреты,трюки. СПб.: БХВ-Петербург, 2007. - 336 с.ч ' '

41. Яковлев А., Ткачев В. Раскрутка сайтов. Основы, секреты, трюки. -СПб. : БХВ-Петербург, 2010. 352 с.

42. Agrawal R., Srikant R. Searching with numbers // In Proceedings of the eleventh international conference on World Wide. ACM Press, 2002.

43. Aizawa A. The feature quantity: an information theoretic perspective of tfldf-like measures // In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval.

44. ACM Press, 2000. p. 104-111.

45. Arampatzis A., Weide T., Koster C., Bommel P. Linguistically motivated information retrieval. 2000.

46. Bahle D., Williams H.E., Zobel J. Efficient phrase querying with an auxiliary index // Proceedings of the ACM-SIGIR Conference on Research and Development in Information Retrieval. Tampere, 2002. - p. 215 -221.

47. Brin S., Page L. The anatomy of a large-scale hypertextual Web search engine / Computer Networks and ISDN Systems, 30,1998. p. 107 - 117.

48. Buckley Clir. Implementation of the smart information retrieval system // Technical report, 1985.

49. Chowdhury A. McCabe M. C. Improving information retrieval systems using part of speech tagging //Technical Report, 1998.

50. Crivellari M. Web document retrieval using passage retrieval, connectivity information, and automatic link weighting // In The Tenth Text Retrieval Conference (TREC 2001). 2001. - p. 624 - 633.

51. Danowslci J.A. A word-pair approach to information retrieval. In TREC, 1992.-p. 131-136.

52. Dias G., Guillore S., Bassano J-C., Pereira Lopes J.G. Combining linguistics with statistics for multiword term extraction: A fruitful association? // In Proceedings of Recherche d'Informations Assistee par1. Ordinateur. 2000.

53. Downes-Powell G., Green T., Mairlot B. Dreamweaver MX: PHP Web Development (Programmer to Programmer). 2002. - 360 p.

54. Harman D. What we have learned, and not learned, from tree // In Proceedings of the BCS IRSG'2000. 2000. - p. 2 - 20.

55. Haveliwala T. Topic-sensitive pagerank // In Proceedings of the Eleventh

56. Henzinger M. Link analysis in web information retrieval. IEEE Data Engineering. Bulletin, 23(3). 2000. - 3 - 8.

57. Huang Ch., Pan H., Zhang L., Ming Z. Automatic detecting/correcting errors in Chinese text by an approximate wordmatching algorithm // In 38th Annual Meeting of the Association for Computational Linguistics. -2000.-p. 315-340.

58. Hull D.A. Stemming algorithms: A case study for detailed evaluation / Journal of the American Society of Information Science, 47(1). 1996. -p. 70-84.

59. International World Wide Web Conference. 2002.

60. Jin H., Wong K. A Chinese dictionary construction algorithm for information retrieval // ACM Transactions on Asian Language Information Processing (TALIP). 2002. - p. 281 - 296.

61. Jones K.S., Walker S., Robertson S.E. A probabilistic model of information retrieval: development and comparative experiments / Inf. Process. Manage., 36(6). 2000. - p. 779 - 808.

62. Kamvar S.D., Haveliwala T.H., Manning C.D., Golub G.H. Extrapolation methods for accelerating pagerank computations // In Proceedings of the twelfth international conference on World Wide Web. 2003. - p. 261

63. Kantrowitz M., Mohit B., Mittal V. Stemming and its effects on tfidf ranking (poster session) // In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. 2000. - p. 357 - 359.

64. Kaszkiel M., Zobel J. Effective ranking with arbitrary passages / Journal of the American Society of Information Science. 2001. - p. 344 - 364.

65. Kozima H. Text segmentation based on similarity between words. // In Meeting of the Association for Computational Linguistics. 1993. - p. 286 - 288.

66. Krovetz R., Croft W.B. Lexical ambiguity and information retrieval / Information Systems. 1992. - p. 115 - 141.

67. Lecky-Thompson E. , Eide-Goodman H., Nowicki S., Cove A. Professional PHP5. 2004. - 672 p.

68. Li K.M. A composite approach to language/encoding detection // In Nineteenth International Unicode Conference. 2002.

69. Lim L., Wang M., Padmanabhan S. Dynamic maintenance of web indexes using landmarks.

70. Lovins J.B. Development of a stemming algorithm / Mechanical Translation and Computation. 1968. - p. 22 - 31.

71. Mauldin M.L. Lycos: Design choices in an internet search service // Technical report, 1997.

72. Mihaila G.A., Bharat K. Hilltop: A search engine based on expert documents. 2003.

73. Mittendorfer M., Winiwarter W. Exploiting syntactic analysis of queriesfor information retrieval // Data Knowl. Eng., 42(3). 2002. - p. 315 -325.

74. Monz Chr. Computational semantics and information retrieval // In Proceedings of the 2nd Workshop on Inference in Computational Semantics (ICoS-2). 2000. - p. 1 - 5.

75. Newby G.B. Information space based on html structure // In Proceedings of TREC9. 2000. - p. 600 - 601.

76. Ponte J.M., Croft W.B. Text segmentation by topic. In European Conference on Digital Libraries. 1997. - p. 113 - 125.

77. Porter M.F. An algorithm for suffix stripping / Program, (14). 1980. - p. 130-137.

78. Robertson S.E., Walker S., Jones S., Hancock-Beaulieu M.M, Gatford M. Okapi at trec-3 // In Proc. of the TREC-3, 1994.

79. Salton G., Allan J., Buckley C. Approaches to Passage Retrieval in Full Text Information Systems // In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1993. - p. 49 - 58.

80. Salton G., Buckley C. Term-weighting approaches in automatic text retrieval / Information Processing & Management, 24(5). p. 513 - 523.

81. Salton G., Fox E. A., Wu H. Extended Boolean information retrieval. -Commun, 1983. p. 1022 - 1036.

82. Salton G., McGill M. J. Introduction to modern information retrieval. -NY. : McGraw-Hill, 1983. 29 p. ISBN 0-07-054484-0.

83. Scholer F., Williams H., Yiannis J., Zobel J. Compression of inverted indexes for fast query evaluation. 2002.

84. Shih M.Y. and Meng W. Using the structure of html documents to improve retrieval // In USENIX symposium on Internet Technologies and Systems (NISTS'97). 1997. - p. 241 - 251.

85. Sidorov G., Gelbukh A. Zipf and heaps laws coefficients depend on language // In Proceeding of Conference on Intelligent Text Processing and Computational Linguistics (CICLing'2001). 2001. - p. 332 - 335.

86. Singhal A., Kaszkiel M. A case study in web search using tree algorithms. -2001.-p. 708-716.

87. Smeaton A.F., O'Donnell R., Kelledy F. Indexing structures derived from syntax in TREC-3: System description. 1994, p. 100 - 110.

88. Song F., Croft W.B. A general language model for information retrieval (poster abstract) // In Research and Development in Information Retrieval. -1999.-p. 279-280.

89. Stobart S., Vassileiou M. Php and Mysql Manual: Simple, Yet Powerful Web Programming (Springer Professional Computing). 598 p.

90. Voorhees E.M. Natural language processing and information retrieval // Ini1.formation Extraction: Towards Scalable, Adaptable Systems. 1999. -p. 32-48.i

91. Xu J., Croft Br. Query expansion using local and global documentanalysis / In Proc. of the SIGIR'96, 1996. p. 4 - 11.i ' ■ i • '

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.