Студопедия

КАТЕГОРИИ:

АвтоАвтоматизацияАрхитектураАстрономияАудитБиологияБухгалтерияВоенное делоГенетикаГеографияГеологияГосударствоДомЖурналистика и СМИИзобретательствоИностранные языкиИнформатикаИскусствоИсторияКомпьютерыКулинарияКультураЛексикологияЛитератураЛогикаМаркетингМатематикаМашиностроениеМедицинаМенеджментМеталлы и СваркаМеханикаМузыкаНаселениеОбразованиеОхрана безопасности жизниОхрана ТрудаПедагогикаПолитикаПравоПриборостроениеПрограммированиеПроизводствоПромышленностьПсихологияРадиоРегилияСвязьСоциологияСпортСтандартизацияСтроительствоТехнологииТорговляТуризмФизикаФизиологияФилософияФинансыХимияХозяйствоЦеннообразованиеЧерчениеЭкологияЭконометрикаЭкономикаЭлектроникаЮриспунденкция

Поисковые системы и алгоритмы поиска информации в сети Интернет




 

Теоретический материал

 

Поисковые cистемы обычно состоят из трех компонент:

· агент (паук или кроулер), который перемещается по Сети и собирает информацию;

· база данных, которая содержит всю информацию, собираемую пауками;

· поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Средства поиска (агенты, пауки, кроулеры, роботы) используются для сбора информации о документах, находящихся в сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию[3], которую они находят, для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS(WideAreaInformationServer); другие проинструктированы, что нужно просматривать в первую очередь наиболее популярные страницы.

Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции[4] от Вашего имени. Уже сейчас они могут искать сайты специфической тематики и возвращать списки сайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке.

В настоящее время используются следующие критерии для сравнения поисковых систем:

1. Навигационный поиск - сравнивается способность поисковиков находить известные сайты. Например, для осуществления навигационного поиска задаются такие запросы, как «сбербанк», «комсомольская правда», «рамблер», «газета.ру» и т.п.Лучшим результатом в ответ на навигационный запрос является искомый сайтна первой позиции поисковой выдачи.

2. Тематический (экспертный) - сравнивается способность поисковиков формировать выдачу, близкую к ручной экспертной подборке ссылок. Например, для осуществления тематического поиска задаются такие запросы, как «аквапарки Казани» или «духовные семинарии Санкт-Петербурга». Подобный вид поиска должен содержать полный список сайтов соответствующих организаций. Сайты-маркеры подбираются вручную на основе выдачи всех поисковых машин, а также при помощи веб-каталогов, «желтых страниц» и т. п. Для каждой из поисковых машин анализатор проверяет, какой процент маркеров был найден.

3. Подсказки- сравнивается способность поисковиков замечать ошибки при наборе запроса и подсказывать пользователям правильные варианты.Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска.В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит «правильную» форму запроса.

4. Опечатки - сравнивается способность поисковиков не реагировать на явные опечатки при наборе запроса и выдавать результаты как для запросов без опечаток.Поисковик в случае опечатки может придерживаться одной из трех стратегий:

· никак не обрабатывать эти случаи и искать строго то, что ввел пользователь;

· понять, что имела место опечатка, тем не менее, найти то, что введено, и рядом предложить правильную, по мнению поисковой машины, форму – «возможно, вы имели ввиду [правильное написание запроса]»

· понять, что имела место опечатка, не искать ошибочное написание, а сразу искать правильную форму.

В зависимости от выбранной стратегии, пользователь либо не увидит, что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.

В данном анализаторе сравнивается поисковая выдача по «правильному запросу» и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по «правильному» запросу.

5. Цитаты - сравнивается способность поисковиков находить источники известных цитат.

Цитатный поиск - это поиск конкретного текста по его известному фрагменту. Задавая такой запрос, пользователь (обычно заинтересовавшийся цитируемым в Сети высказыванием) пытается найти оригинальное произведение, и задача поисковика выдать не отрывки и выдержки из него, а полный текст.

Для поиска цитат можно использовать типовые (двойные) кавычки, вида « или . Слова запроса, заключенного в двойные кавычки, ищутся в документах именно в том виде и в том порядке, как они были заданы в запросе. Это весьма эффективный способ поиска. Его применение обеспечивает успешность более 60%. Здесь важно учитывать то, что цитирование должно быть точным.

6. Оригиналы - сравнивается способность поисковиков находить первоисточники.

7. Синонимы - сравнивается способность поисковиков правильно распознавать одинаковые по смыслу запросы с разными формулировками.Один и тот же вопрос можно задать десятком способов. Например, для пользователей запросы «как узнать адрес по номеру телефона», «поиск адреса по номеру телефона» и «найти адрес по номеру телефона» имеют одинаковый смысл, это запросы-синонимы.

Запросы-синонимы появляются по разным причинам:

· при использовании общепринятых сокращений – «погода в Санкт-Петербурге» и «погода в Спб»;

· при использовании транслитераций – «характеристики toyotacamry» и «характеристики тойота камри»;

· при использовании разных падежей – «сценарий встречи Нового Года» и «сценарий встреча Новый Год»;

· при использовании перестановок слов – «ремонт АКПП», «АКПП ремонт»;

· при использовании жаргонизмов – «скачать мультфильмы», «скачать мультики»;

· при использовании слов, не несущих смысловой нагрузки – «быстрый интернет», «супер быстрый интернет»;

· при использовании синонимов слов, входящих в запрос – «грустные стихи», «печальные стихи».

Поисковые системы в ответ на запрос должны подобрать наилучший набор ссылок. Чаще всего в результатах поиска люди ожидают увидеть информацию, соответствующую смыслу, а не букве запроса. Из этого следует, что выдача в ответ на синонимичные запросы должна быть одинаковой, несмотря на то, что формулировки отличаются друг от друга.

Анализатор поиска по запросам-синонимам проверяет, насколько совпадает выдача по разным запросам, имеющим одинаковое значение. Образно можно сказать, что анализатор в какой-то мере показывает способность поисковика «понимать» смысл запроса.

8. Спам - сравнивается способность поисковиков удалять спам из результатов поиска.

Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама.

Используются следующие категории поискового спама:

· doorway – безусловный спам: увод пользователя к другим страницам;

· spamcatalog – безусловный спам: спамерские каталоги;

· spamcontent – безусловный спам: спамерский заимствованный контент;

· pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма);

· catalog – каталог;

· board – доски объявлений;

· domainsale – домены на продажу;

· secondary – вторичный, заимствованный контент;

· partner – любые партнеры;

· spamforum – заспамленный форум;

· searches – результаты поиска.

9. Сайты для взрослых - сравнивается способность поисковиков фильтровать ссылки на порносайты по запросам, не относящимся к порнотематике.Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.

Качество поиска, осуществляемого поисковыми системами, можно определить как процент новых пользователей, удовлетворенных результатами поисковой машины и выбравшие ее для себя в качестве поисковика по умолчанию. Например, пришли 1000 новых пользователей, через год остались 400, остальные ушли к конкурентам, качество поисковика - 0,4 (40%).

Другое определение характеризует качество поиска как процент ответов, оцененных экспертами как идеальные («валидные», «релевантные», «удовлетворительные») по отношению к общему количеству ответов поисковой системы за единицу времени. Например, в течение недели (дня, часа, 10 секунд и т.п.) поисковик выдал 10000 ответов, асессоры оценили все, хорошими признаны 3500, качество поисковика - 0,35 (35%).

В России наиболее крупными и популярными поисковыми указателями являются:

· «Яndex» (www.yandex.ru)

· «Pамблер» (www.rambler.ru)

· «Google» (www.google.ru)

· «Апорт2000» (www.aport.ru)

Для оптимальной и быстрой работы с поисковыми системами существуют определенные правила написания запросов. Подробный перечень для конкретного поискового сервера можно, как правило, найти на самом сервере по ссылкам Помощь, Подсказка, Правила составления запроса и т.п.

Задавая образ поиска в поисковой системе, следует иметь в виду, что алгоритмы поиска информации в сети, подобно поиску информации в базе данных, основаны на логике.

1. Несколько ключевых слов, разделенных пробелом, соответствуют операции логического сложения: ИЛИ (OR). Например, указав ключ: <Социальная коммуникация>, мы получим список всех документов, в которых встречается слово «Социальная» или слово «коммуникация».

2. Несколько слов, заключенных в кавычки, воспринимаются как единое целое. Например, «Социальная коммуникация».

3. Знак + между словами равносилен операции логического умножения: И (AND). Указав в запросе ключ<Социальная + коммуникация>, получим все документы, в которых имеются эти два слова одновременно, но они могут быть расположены в любом порядке и вразброс.

4. Знак *, или подстановочный знак, - это малоизвестная функция, которая может быть очень действенной. Если в запросе указать звездочку (*), то она будет означать любое неизвестное поисковое слово, что позволяет найти самые лучшие соответствия. Например, запрос <Google *> выдаст результаты о многих продуктах Google. Запрос < Дума проголосовала * по * законопроекту > выдаст результаты о разных голосованиях по различным законопроектам. Обратите внимание, что оператор * работает только с целыми словами, а не частями слов.

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп - слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Очень часто опускаются апострофы и тире. Большинство поисковых машин их знают и сами освобождают от них сформулированный пользователем запрос. Это связано с тем, что факт присутствия этих слов может заметно замедлить поиск и отрицательно повлиять на его результат и полноту. В тоже время есть возможность обозначить необходимость этих слов в запросе. Для этого следует взять запрос в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Если запрос составлен из нескольких слов без применения операторов и конструкций языка запросов, то машина будет пытаться найти документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда вводится так называемое ограничение контекста - положительное число. По умолчанию принимается расстояние равное 40 словам.

 

Задание

    Проанализировать работу поисковых систем Google, Яндекс, Апорт, Рамблер на предмет качества осуществляемого ими поиска и освоитьосновные приемы поиска информации в сети Интернет.

Порядок выполнения

1. Протестировать поисковые системы Google, Яндекс, Апорт, Рамблер.

2. Заполнить таблицу «Сравнение поисковых систем» (см. таблица 3).

3. Сделать вывод о качестве поиска, осуществляемого каждой из рассмотренных поисковых систем.

4. Осуществить поиск средствами вышеперечисленных поисковых систем и заполнить таблицу «Результаты выдачи поисковой системы» (см. таблица 4).

5. Дополнить таблицу 4 самостоятельно построенными запросами.

6. Познакомиться с избранными документами и оценить их релевантность (смысловое соответствие результатов поиска указанному запросу).

7. Сравнить результаты поиска (только первые блоки) всех серверов и прокомментировать их.

8. Подготовить отчет о выполнении лабораторной работы, приложив к нему заполненные таблицы3(с проставленным рейтингом проанализированных систем (от 1 до 4)) и 4.

 

 

Таблица 3

Сравнение поисковых систем

Критерий / Поисковая система

Google

Yandex

Rambler

Апорт

Интерфейс

 

 

 

 

Навигационный поиск

 

 

 

 

Тематический поиск

 

 

 

 

Подсказки

 

 

 

 

Опечатки

 

 

 

 

Цитаты

 

 

 

 

Оригиналы

 

 

 

 

Синонимы

 

 

 

 

Спам

 

 

 

 

Сайты для взрослых

 

 

 

 

 

 

 

 

 

Рейтинг:

 

 

 

 

Таблица 4










Последнее изменение этой страницы: 2018-06-01; просмотров: 281.

stydopedya.ru не претендует на авторское право материалов, которые вылажены, но предоставляет бесплатный доступ к ним. В случае нарушения авторского права или персональных данных напишите сюда...