Современные тенденции в разработке информационно поисковых систем. Поисковые системы. Развитие сервисов поисковых систем

КОВРОВСКАЯ ГОСУДАРСТВЕННАЯ ТЕХНОЛОГИЧЕСКАЯ АКАДЕМИЯ

Информационно-аналитическая справка по информатике

на тему:«Современные поисковые системы, тенденции развития одного из лидеров рынка Яndех».

Выполнил: студент 1-го курса

3 академической группы

Макаров Иван

Вступление. 3

Основная часть. 4

Заключение. 11

Вступление.

Я́ндекс - российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является восьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (1,290 млрд, статистика за август 2009 г.) и вторым крупнейшим неанглоязычным поисковым сервером после китайского Baidu.

Сайт компании был открыт 23 сентября 1997 года. 2000 год - год образования компании «Яндекс». Учредителем Яндекса является CompTek (фирма, разработавшая поисковую систему Yandex и осуществлявшая его поддержку). Компания вышла на самоокупаемость в 2002 году, оборот за 2006 год - 72,6 млн долларов, чистая прибыль - 29,9 млн., за 2005 год - 35,6 млн долларов, чистая прибыль - 13,6 млн.

Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мульти-порталом. В 2009 году в копилке Яндекса - более 30 сервисов. Самыми популярными являются: Яндекс.Новости, Яндекс.Фотки, Яндекс.Игрушки и другие.

Главный офис компании находится в Москве. У компании есть офисы в Санкт-Петербурге, Екатеринбурге, Одессе, Симферополе и Киеве. В середине июня 2008 года компания объявила об открытии Yandex Labs - офиса в США, штат Калифорния.

Основная часть.

История создания компании.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и «контрастность» слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Чуть позже в разделе «Сказки» (наблюдения за содержанием русского Интернета) появилась первая сказка Рунета - «Web - гуманизм или чернуха?». А в разделе «Числа» - первая оценка объема Рунета, 5 тысяч серверов и 4 Гб текстов.

Через два месяца, в ноябре 1997 года, был реализован естественно-языковый запрос. Отныне к Yandex.Ru можно обращаться просто «по-русски», задавать длинные запросы, например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи» и получать точные ответы. Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Yandex.Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость поиска на Yandex.Ru - доли секунды.

За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex.Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета. Сегодня поисковая база Yandex.Ru вдвое больше, чем у ближайших конкурентов.

Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.

В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис - подписка на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

Происхождение слова «Яндекс».

Сегодня «Яндекс» - слово из повседневного обихода пользователя интернета. В Сети часто встречается «А что, Яндекс уже отменили?», «Одиночество - это когда с днем рождения первым поздравляет Яндекс», «Все вопросы к Яндексу». Многим уже кажется, что так было всегда. В некотором роде это правда - Яндекс действительно появился одновременно с массовым интернетом, когда доступ в сеть перестал быть уделом избранных технических специалистов. Но само слово «Яндекс» - искусственное, имеет своих авторов и свою историю.

1993 году Аркадий Волож, будущий генеральный директор будущей компании «Яндекс», и Илья Сегалович, будущий директор по технологиям компании, разрабатывали, как потом выяснилось, главную технологию - поиск неструктурированной информации с учетом русского языка.

Разработку надо было как-то назвать. Илья помнит, как выписывал столбиком разные производные от слов, описывающих смысл технологии. Довольно быстро стало понятно, что search («поиск») по-русски звучит слишком неблагозвучно и удачной комбинации на его основе не сделаешь. Слово index подходило больше. Так в списке названий появился yandex - yet another indexer («еще один индексатор» или Языковой иНдекс). Вариант понравился и Илье, и Аркадию - легко произносится, легко пишется. Кроме этого, Аркадий предложил букву «Я» в названии - специфически русскую - русской и оставить, для наглядности. Так было изобретено слово «Яndex». А файл программы, соответственно, назывался yandex.exe.

В 1996 году, когда впервые широкой публике был предложен поиск как технология, а не как часть контентного продукта (до этого были Международный классификатор изобретений и Библейский компьютерный справочник), линейку программ назвали Яndex и объясняли это название как Языковый iNDEX. Первыми программами в линейке стали Яndex.Site (поиск по одному собственному сайту - этот продукт сейчас называется Яndex.Server) и Яndex.Dict (морфологическая приставка к AltaVista, единственной поисковой системе, которая в то время умела хоть как-то работать с кириллицей).

Но, конечно, широкое распространение слово «Яндекс» получило c сентября 1997 года, после запуска поисковой системы www.yandex.ru. С тех пор пользователи системы предлагают нам свои трактовки. Например, Тёма Лебедев, готовясь к рисованию первой версии главной страницы сайта Яндекса, сказал: «А, я понял, если в слове index первое „I“ перевести на русский, это будет „Я“, то есть так и получится „Яндекс“». Авторы честно признались, что об этом не думали, но - хорошая трактовка, принимается. Потом кто-то в Сети предложил другой вариант, увидев две стороны интернета, ИНЬдекс и ЯНдекс. У этого слова уже появились производные, так, сотрудников Яндекса часто называют «яндексоиды» и реже - «яндексовцы».

Поиск «Яндекса».

Поиск Яндекса позволяет искать по Рунету, Уанету, и Казнету (c 14 октября 2009 года) документы на русском, украинском, белорусском, румынском, английском, немецком и французском языках с учётом морфологии русского и английского языков и близости слов в предложении. С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), Rich Text Format (RTF), двоичных форматах Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (блоги и форумы).

Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдёт документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б - документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всём документе.

Оператор! позволяет отключить морфологию для конкретного слова, а!! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы связанные с омонимией. Например запрос!!Иванов будет находить Иванова и Ивано́вых, но не Ивана.

По умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличатся, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска - по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последние официально объявленные изменения произошли в марте 2004 г., апреле 2005 г. и январе 2007 г.; по неофициальным сведениям, их значительно больше (например, последнее в августе-сентябре 2007 г.).

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов). Против поискового спама, не отсеиваемого автоматически, применяется полуавтоматическая и ручная модерация выдачи (при помощи т. н. «белых оптимизаторов»), а также прямой отказ от индексации «злонамеренных» сайтов.

Собственники, руководство и показатели деятельности.

Более 30 % компании, по собственным данным, принадлежит фондам инвестиций ru-Net Holdings и Baring Vostok Capital Partners, 15 % - фонду Tiger Technologies, около 30 % - основателям компании и 20 % - менеджерам и другим миноритарным акционерам.

В середине сентября 2009 года стало известно, что материнская компания «Яндекса» - голландская компания Yandex N. V. выпустила приоритетную акцию, которая была передана Сбербанку за символический 1 евро. Единственное право, которое даёт акция - накладывать вето на продажу более 25 % акций компании.

Руководство: ркадий Волож - генеральный директор, Илья Сегалович - технический директор, Елена Колмановская - главный редактор, Алексей Третьяков - коммерческий директор, Светлана Кондрашова - директор по рекламе.

Все сервисы «Яндекса».

Информационно-поисковые:

Поиск и ya.ru

Каталог - каталог веб-сайтов с сортировкой по индексу цитирования. Пополняется вручную редакторами каталога, имеется возможность платной регистрации.

Новости - главные новости дня, полученные из основных СМИ, представленных в Интернете. Есть возможность поиска по новостям, а также подписки на новости по заданному поисковому запросу.

Яндекс.XML - при помощи этого сервиса можно делать автоматические поисковые запросы к Яндексу в формате xml.

Поиск по блогам и форумам - поиск по ресурсам, имеющим RSS-представление, а также рейтинг актуальных запросов, популярных категорий и новостей.

Маркет - поиск предложений по продаже товаров и услуг, подбор моделей.

«Медитативный» поиск - единственный в мире поисковый сервис, в котором есть кнопка «Найти», но нет поисковой строки.

Словари - энциклопедии, справочники, словари-переводчики.

Картинки - поиск изображений.

Видео - поиск видео.

Карты - карты Европы и России, карты крупных городов РФ (с точностью до дома), поиск по карте, а также возможность "побродить" по улицам некоторых городов.[источник?]

Адреса - поиск контактной информации по названиям фирм и организациий.

Афиша - информация о доступных мероприятиях: кино, театр, концерты, спорт, клубы и т.д.

Погода - прогноз погоды.

Телепрограмма - программы центральных, региональных и спутниковых каналов ТВ.

Расписания - расписания поездов и самолётов.

Персонализированные:

Яндекс.Видео - видеохостинг и поиск по видео.

Почта - электронная почта.

Я.ру - блоговый сервис.

Яндекс.Фотки - фото-хостинг.

Спамооборона - фильтрация спама.

Народ - бесплатный хостинг для персональных интернет-страниц, а также служба хранения файлов.

Яндекс.Деньги - платёжная система, позволяющая оплачивать товары и услуги в Интернете.

Закладки - система хранения закладок, интегрированная с «Яндекс. Баром».

Подписки - подписка на новости.

Лента - онлайновый RSS-ридер

Яндекс.Директ - система размещения контекстной рекламы с оплатой по кликам.

Кубок - регулярные соревнования по поиску в Интернете.

Города - Интернет-индексы городов России.

Тариф - поиск по тарифам интернет-провайдеров.

Открытки

Весна - автоматическая генерация философских эссе.

Интернет - измеряет скорость интернет соединения.

Mirror - Зеркало основных дистрибутивов ОС Linux, а также FreeBSD и других проектов.

Яндекс. Локальная сеть - предоставляет возможность пользоваться всеми сервисами Яндекса не по федеральному, а по локальному тарифу.

Метрика - позволяет измерять трафик, анализировать поведение пользователей и оценивать эффективность рекламных кампаний.

Программные продукты:

Спам-фильтр Спамоборона для корпоративного использования (платный).

Программа для поиска файлов Yandex Desktop Search на компьютере.

Программа мгновенного обмена сообщениями Я.Онлайн на основе Jabber. Позволяет также получать уведомления о новых письмах из Яндекс. Почты, о новых событиях с сайтов Одноклассники.ru и ВКонтакте.

Программа Punto Switcher - автоматический переключатель раскладки.

Виджеты для операционных систем Mac OS X и Windows Vista, а также для браузера Opera: Поиск, Пробки, Часы, Новости.

Яндекс ICQ - специальная версия клиента ICQ c символикой и интеграцией некоторых сервисов от Яндекса.

Интересеые факты.

1)Средняя длина запроса в Yandex.Ru сейчас - 2,7 слова. В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

2)Яндекс появился до www.yandex.ru. Слово Яндекс придумали в 1993 году, а публично оно было произнесено в 1996 году и означало тогда не компанию и не поисковую машину, а технологию поиска по собственному серверу и морфологическую приставку к поисковой системе Altavista.com.

3)www.yandex.ru запустили для демонстрации возможностей технологии Яндекс, о заработках на рекламе никто не думал.

4)Слоган «Найдётся всё» придумали в 2000 году. В этом же году Яндекс запустил первую рекламу интернет-сайта на российском телевидении.

5)По данным самого «Яндекса», около 80 процентов его аудитории - из России, около 3 процентов - из Европы, чуть более 1 процента - из США.

6)Часть сотрудников технической поддержки Яндекса действует под коллективным псевдонимом «Платон Щукин».

Заключение.

Итак, теперь мы имеем полную информацию о «Яндексе». Знаем, кто руководит им, как он работает изнутри, что представляет собой история развития компании и много другое. Теперь мы с легкость можем понять, почему «Яндекс» является лидером на российском и мировом рынке. Главной причиной успеха «Яндекса» я считаю то, что поисковик отлично справляется со сложностями русского языка. Именно поэтому поисковики, которые были разработаны под английский язык, не могут так же хорошо индексировать и ранжировать русскоязычные документы. Вторым преимуществом я вижу креативные, доброжелательные, веселые слоганы, которыми «Яндекс» привлекает пользователей к использованию своих сервисов, Тематические картинки, которые размещает «Яндекс» около своей поисковой строки, гораздо доступнее для русского пользователя.

Лидеров , тенденция роста числа предложений сохранится. Присутствующие сегодня на рынке электронные платежные системы ... еще одно знаковое событие: компанией Paycash было заключено соглашение с самой крупной поисковой системой ...

  • Приволжский федеральный округ: современное состояние и перспективы развития (на примере Республики Татарстан)

    Курсовая работа >> Экономика

    ... тенденциями дальнейшего развития . ... лидером . ... развитие одного из важнейших... комплексом поискового и пилотажно... рынок . Развитие ... современных технологий, высокопроизводительного обору­дования, современных ... супертоксикантами; - развитие системы мониторинга земель...

  • Современные социологические проблемы физической культуры и спорта

    Реферат >> Социология

    Для популяризации политических лидеров , партий, ... совокупная субъект-объектная система социально-педагогических... творческой поисковой деятельности... рынок и государство. Рынок ... Тенденции развития современного олимпийского движения Россия является одной из ...

  • Тенденции развития нефтеной промышленности в мировой экономике

    Реферат >> Экономика

    Мировой рынок нефти: тенденции развития и... уже проведенных поисково -разведочных работ, ... Предварительная оценка. Лидером в мировом потреблении... является одним из важнейших элементов современных мирохозяйственных... мировой экономической системе , во времена...

  • Исследования показывают, что поисковые средства постоянно развиваются. Совершенствование идет по всем главным аспектам: рост объемов баз данных, возможности составления запроса и дружественность интерфейса, выдача результатов и наличие дополнительных сервисных функций. Системы, которые долгое время не внедряют новых элементов и не оптимизируют уже имеющиеся функции постепенно выводятся из активного использования .

    Ведущая тенденция последнего времени заключается в расширении числа обследуемых документов и одновременном увеличении глубины просмотра источника. Несколько лет назад поисковые средства были способны индексировать только несколько миллионов источников, которые на тот период включали web-страницы, статьи конференций Usenet, файлы Gopher и FTP серверов. Современные системы в среднем индексируют порядка 50 миллионов документов. При этом скорость работы не только не снизилась, но даже увеличилась за счет использования новейшего программного и аппаратного обеспечения.

    Однако даже более важным является то, что поисковые механизмы последнего поколения индексируют все слова на web-странице или в статье из конференции, в то время как ранее область индексирования ограничивалась как правило названием, заголовками, первыми несколькими строками и адресом документа. Это существенно ограничивало возможность выявления материалов по узкой тематике, поскольку результаты поиска не всегда отражали реально существующие данные. Устранив этот недостаток, современные поисковые системы стали намного более надежными, чем их предшественники.

    В ближайшем будущем полнотекстовое индексирование утвердится в качестве неотъемлемой характеристики поисковых средств, которые собираются серьезно конкурировать. На мой взгляд, это один из ключевых параметров будущего развития поисковых инструментов.

    Следующая важнейшая черта - совершенствование внутреннего поискового механизма, выражающееся в увеличении числа операторов и других элементов составления запросов. Общепринятой становится возможность искать данные на любых языках. Все это дает возможность составлять поисковое предписание с большой степенью точности, что, конечно же, повышает релевантность получаемых результатов.

    Немаловажной тенденцией является оптимизация выдачи результатов поиска. В данном случае можно с уверенностью утверждать, что поисковые средства становятся более интеллектуальными. Программа анализирует расположение слов в документе, их повторяемость и общее количество. На этой основе перечень ссылок выдается в порядке соответствия запросу, причем ссылки на наиболее ценные источники, выдаются в начале списка.

    В перспективе работа над тем, как сделать поисковые средства еще более интеллектуальными будет продолжаться, поскольку только системы с мощной интеллектуальной базой будут способны переработать стремительно расширяющийся океан полнотекстовых данных. В частности, именно системам искусственного интеллекта предстоит решить проблему информационного шума или "мусорных данных", которая становится все острей в связи с ростом в Интернет материалов низкой содержательной ценности. поисковая программная internet сетевой

    Еще одной тенденцией является - появление дополнительных сервисных функций, которые делают пользование поисковыми системами более привлекательным. Некоторые из навигационных средств формируют добавочные базы данных по определенным направлениям (электронные адреса частных лиц, справочники компаний, перечни последних новостей и т.д.). Другие размещает на своих страницах ссылки на наиболее популярные справочные ресурсы Интернет, как например электронные словари, тезаурусы, энциклопедии, интерактивные карты и т.п. источники, что превращает интерфейс поисковых систем в хорошую отправную точку для любого, работающего с Интернет.

    Нет сомнений, что все перечисленные тенденции эволюции поисковых средств найдут свое продолжение в ближайшем будущем. С ростом ресурсов Интернет их потенциал будет также расширяться. С уверенностью можно прогнозировать и появление совершенно новых средств, созданных на базе последних технологических достижений.

    Реальной базой для дальнейшего усовершенствования поисковых орудий является расширение деловой активности в Интернет. Предприимчивые компании уже осознали, что создание и поддержка поисковых серверов является доходным бизнесом. Так как к их услугам прибегает огромное число пользователей, интерфейсы систем становятся наиболее выгодным местом для размещения рекламы. Поэтому разработчики поисковых орудий постоянно заботятся о том, чтобы сделать свой продукт максимально привлекательным. Добиться же этого можно только путем неуклонного повышения качества работы систем по всем рассмотренным показателям.

    Разнообразные технологии и методы, созданные за годы развития теории и практики информационного поиска, находят свое применение в современных ИПС. Наряду с классическими библиотечными ИПС, которые продолжают совершенствоваться, интенсивное развитие происходит в области глобальных ИПС сети Интернет, которая стала главной движущей силой современных технологий информационного поиска. Гигантский объем доступных информационных ресурсов требует применения масштабируемых алгоритмов поиска. Гипертексты позволяют использовать принципиально новые модели поиска, основанные на семантическом анализе коллекций документов. Высокая скорость обновления страниц, их свободное размещение и отсутствие гарантии постоянного доступа приводит к необходимости постоянного переиндексирования актуальных информационных ресурсов.

    Наконец, неоднородный состав пользователей, часто не имеющих навыков работы с поисковой системой, заставляет искать эффективные способы формулировки запросов, работающие с минимальной исходной информацией.

    6.1. Словарные информационно-поисковые системы

    Словарные ИПС на сегодняшний день – самые быстрые и эффективные поисковые системы, получившие наибольшее распространение в сети Интернет. Поиск необходимой информации в словарных ИПС осуществляется по ключевым словам. Результаты поиска формируются в ходе работы того или иного поискового алгоритма со словарем и запросом, составленным пользователем на ИПЯ.

    Структура словарной ИПС (рис. 13) состоит из следующих компонентов: средства просмотра документов, интерфейса пользователя, поисковой машины, базы данных поисковых образов и индексирующего агента.

    Информационный массив включает в себя информационные ресурсы, потенциально доступные пользователю. Сюда входят текстовые и графические документы, мультимедийная информация и т. д. Для глобальной ИПС – это вся сеть Интернет, где все документы характеризуются уникальным адресом URL (URL – унифицированный указатель информационного ресурса (англ. Uniform Resource Locator).

    Интерфейс поисковой системы определяет способ взаимодействия пользователя с ИПС. Сюда входят правила формирования запросов, механизм просмотра результатов поиска и т. д. Интерфейс поисковых систем сети Интернет обычно реализуется в среде веб-браузера. Для работы со звуковой и видео информацией применяется соответствующее программное обеспечение.

    Главная функция поисковой машины – реализация принятой модели поиска. Сначала запрос пользователя, подготовленный на ИПЯ, транслируется согласно установленным правилам в формальный запрос. Затем в ходе выполнения поискового алгоритма запрос сравнивается с поисковыми образами документов из базы данных. По результатам сравнения формируется итоговый список найденных документов. Обычно он содержит название, размер, дату создания и краткую аннотацию документа, ссылку на него, а также значение меры подобия документа и запроса.

    Рис.13. Структура словарной ИПС.

    Список подвергается ранжированию (упорядочению по какому-либо критерию, обычно по значению формальной релевантности).

    База данных поисковых образов документов предназначена для хранения описаний индексированных документов. Структура типичной базы данных словарной ИПС подробно описана в части 1 методических указаний.

    Индексирующий агент выполняет индексацию доступных документов с целью составления их поисковых образов. В локальных системах эта операция обычно осуществляется один раз: после окончания формирования массива документов вся информация индексируется и поисковые образы вносятся в базу данных. В динамическом децентрализованном информационном массиве сети Интернет применяется другой подход. Специальная программа-робот, которую называют паук (spider) или ползун (crawler), непрерывно обходит сеть. Переходы между различными документами осуществляются с помощью содержащихся в них гиперссылок. Скорость обновления сведений в базе данных поисковой системы напрямую связана со скоростью сканирования сети. Например, мощный индексирующий робот может обойти всю сеть Интернет за несколько недель. При каждом новом цикле обхода база данных обновляется и старые недействительные адреса удаляются.

    Часть документов для поисковых машин закрыта. Это информация, доступ к которой авторизован или осуществляется не по ссылке, а по запросу из формы. В настоящее время разрабатываются интеллектуальные методы сканирования скрытой части Интернет, но широкого распространения они пока не получили.

    Для индексирования гипертекстовых документов программы-агенты используют источники: гипертекстовые ссылки (href), заголовки (title), заглавия (H1, H2 и т. д.), аннотации, списки ключевых слов (keywords), подписи к изображениям. Для индексирования нетекстовой информации (например, файлов, передаваемых по протоколу ftp) используются URL .

    Также используются возможности полуавтоматической или ручной индексации.

    В первом случае администраторы оставляют сообщения о своих документах, которые индексирующий агент обрабатывает спустя некоторое время, во втором, администраторы самостоятельно вносят в базу данных ИПС необходимую информацию.

    Все большее число ИПС производят полнотекстовую индексацию. В этом случае для составления поискового образа используется весь текст документа. Форматирование, ссылки и т. д. становятся в этом случае дополнительным фактором, влияющим на значимость того или иного термина. Термин из заголовка получит больший вес, чем термин из подписи к рисунку.

    Современные крупные ИПС должны в течение секунды обрабатывать сотни запросов. Поэтому любая задержка может привести к оттоку пользователей и, как следствие, к непопулярности системы и коммерческим неудачам. С точки зрения архитектуры, такие ИПС реализуются в виде распределенных вычислительных систем, состоящих из сотен компьютеров, расположенных по всему миру. Поисковые алгоритмы и программный код подвергаются крайне тщательной оптимизации.

    В ИПС с большим объемом базы документов для ускорения их работы применяются технологии эшелонирования и прюнинга .

    Эшелонирование заключается в разделении базы данных на заведомо более релевантную и менее релевантную части. Сначала ИПС ищет документы по первой части базы. Если документов не найдено или найдено недостаточно, то поиск выполняется во второй части.

    При использовании прюнинга (Pruning – англ. сокращение, удаление) обработка запроса автоматически прекращается после нахождения достаточного количества релевантных документов.

    Также широко применяются пороговые модели поиска , которые определяют некоторые пороговые значения для характеристик документов, выдаваемых пользователю. Например, релевантность документов обычно ограничивается некоторым значением релевантности

    Вниманию пользователя предлагаются все документы со значением релевантности

    В случае ранжирования результатов поиска по дате пороговые значения определяют временной интервал даты изменения документов. Например, ИПС может автоматически отсекать документы, не изменявшиеся последние три года.

    Главным достоинством ИПС словарного типа является практически полная ее автоматизация. Система самостоятельно анализирует поисковые ресурсы, составляет и хранит их описания, производит поиск среди этих описаний. Широкий охват ресурсов сети Интернет также относится к плюсам таких систем. Значительные объёмы баз данных делают словарные ИПС особенно полезными для исчерпывающего поиска, сложных запросов или для локализации неясной информации.

    В то же время огромное количество документов в базе данных системы часто приводит к слишком большому числу найденных документов. Это вызывает затруднения у большинства пользователей при анализе найденной информации и делает невозможным быстрый поиск. Автоматические методы индексации не могут учесть специфики конкретных документов, и количество непертинентных документов среди

    найденных такой системой часто бывает велико.

    Еще одним недостатком словарной ИПС является необходимость формулировать запросы к системе на специальном языке. Хотя существует тенденция к сближению ИПЯ с естественными языками, на сегодняшний день пользователь должен иметь определенные навыки в формулировании запросов.

  • GNU(рекурсивный акроним от GNU’s Not UNIX - «GNU - не Unix!») - это проект создания свободной UNIX-подобная операционной системы, открытый в 1983 году Ричардом Столлмэном.
  • I. Декларация-заявка на проведение сертификации системы качества II. Исходные данные для предварительной оценки состояния производства
  • Задаваемый булевыми операторами поиск является буквальным – машина осуществляет поиск слов или фраз точно в таком виде, в каком их ввели. Это может порождать проблемы, когда введенные слова многозначны. Например, английское слово «Bed» может означать кровать, клумбу, место, где рыба мечет икру, и многое другое. Если пользователя интересует только одно из этих значений, ему не нужны страницы со словом, имеющим другие значения. Можно построить буквальный поисковый запрос, нацеленный на отсечение нежелательных значений, но было бы неплохо, если бы сама поисковая машина могла оказывать соответствующую помощь.

    Один из вариантов работы поисковой машины – концептуальный поиск. Часть такого поиска предусматривает использование статистического анализа страниц, содержащих введенные пользователем слова или фразы, для нахождения других страниц, которые могли бы этого пользователя заинтересовать. Понятно, что для концептуального поиска требуется хранить больше информации о каждой странице, и каждый поисковый запрос потребует большего числа вычислений. В настоящее время многие группы разработчиков занимаются повышением результативности и производительности поисковых машин такого типа. Другие исследователи сфокусировались на иной области, которую именуют естественно-языковыми запросами (natural-languagequeries).

    Идея естественно-языковых запросов состоит в том, чтобы пользователь формулировал запрос так же, как он бы спрашивал у человека, сидящего рядом – при этом не нужно отслеживать булевы операторы или сложные структуры запросов. Наиболее популярным современным сайтом с естественно-языковыми поисковыми запросами является AskJeeves.com, анализирующий запрос с целью выявления ключевых слов, которые затем используются для поиска в построенном этой поисковой машиной указателе сайтов. Упомянутый сайт работает только с простыми поисковыми запросами, однако разработчики в условиях жесткой конкуренции занимаются разработкой машины с естественно-языковыми поисковыми запросами, способной обрабатывать очень сложные запросы.


    30. Семантические системы: определение, назначение, техническая суть, классификация, характеристики, архитектура, примеры и перспективы развития. Основные принципы оптимизации семантической сети



    Семантическая сеть (система) – информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа – набора вершин, соединённых дугами (рёбрами). В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

    Математика позволяет описать большинство явлений в окружающем мире в виде логических высказываний. Семантические сети возникли как попытка визуализации математических формул. Основным представлением для семантической сети является граф . Однако не стоит забывать, что за графическим изображением непременно стоит строгая математическая запись, и что обе эти формы являются не конкурирующими, а взаимодополняющими.



    Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями - дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма. Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.

    В математике граф представляется множеством вершин V и множеством отношений между ними E. Используя аппарат математической логики, приходим к выводу, что каждая вершина соответствует элементу предметного множества, а дуга – предикату.

    Пример семантической сети (системы)

    В лингвистике отношения фиксируются в словарях и в тезаурусах. В словарях в определениях через род и видовое отличие родовое понятие занимает определённое место. В тезаурусах в статье каждого термина могут быть указаны все возможные его связи с другими родственными по теме терминами. От таких тезаурусов необходимо отличать тезаурусы информационно- поисковые с перечнями ключевых слов в статьях, которые предназначены для работы дескрипторных поисковых систем.

    Классификация семантических сетей

    Для всех семантических сетей справедливо разделение по арности и количеству типов отношений.

    · По количеству типов отношений, сети могут быть однородными и неоднородными .

    o Однородные сети обладают только одним типом отношений (стрелок), например, таковой является вышеупомянутая классификация биологических видов (с единственным отношением AKO).

    o В неоднородных сетях количество типов отношений больше двух. Классические иллюстрации данной модели представления знаний представляют именно такие сети. Неоднородные сети представляют больший интерес для практических целей, но и большую сложность для исследования. Неоднородные сети можно представлять как переплетение древовидных многослойных структур. Примером такой сети может быть Семантическая сеть Википедии.

    · По арности:

    o типичными являются сети с бинарными отношениями (связывающими ровно два понятия). Бинарные отношения очень просты и удобно изображаются на графе в виде стрелки между двух концептов. Кроме того, они играют исключительную роль в математике.

    o На практике, однако, могут понадобиться отношения, связывающие более двух объектов – N-арные . При этом возникает сложность – как изобразить подобную связь на графе, чтобы не запутаться. Концептуальные графы (см. ниже) снимают это затруднение, представляя каждое отношение в виде отдельного узла.

    · По размеру:

    o Для решения конкретных задач, например, тех которые решают системы искусственного интеллекта.

    o С. С. отраслевого масштаба должна служить базой для создания конкретных систем, не претендуя на всеобщее значение.

    o Глобальная семантическая сеть. Теоретически такая сеть должна существовать, поскольку всё в мире взаимосвязано. Возможно, когда-нибудь такой сетью станет Всемирная паутина.

    Использование семантических сетей

    Семантизация - процесс изменения текстов, в которых выделяются семантические отношения без изменения их содержания. В Википедии существуют проекты по семантизации статей и Дерева категорий.

    § Семантизация статей заключается в основном путём использования шаблонов, при этом некоторые категории создаются автоматически.

    § Семантизация Дерева категорий возможна по частям после его анализа и выделения участков с родовыми категориями

    Семантическая паутина

    Концепция организации гипертекста напоминает однородную бинарную семантическую сеть, однако здесь есть существенное отличие:

    1. Связь, осуществляемая гиперссылкой, не имеет семантики, т.е. не описывает смысла этой связи. Назначение семантической сети состоит в том, чтобы описать взаимосвязи объектов, а не дополнительную информацию по предметной области. Человек может разобраться, зачем нужна та или иная гиперссылка, но компьютеру эта связь не понятна.

    2. Страницы, связываемые гиперссылками, являются документами , описывающими, как правило, проблемную ситуацию в целом. В семантической сети вершины (то, что связывают отношения) представляют собой понятия или объекты реального мира .

    Попытка создания семантической сети на основе Всемирной паутины получила название семантической паутины . Эта концепция подразумевает использование языка RDF(языка разметки на основе XML) и призвана придать ссылкам некий смысл, понятный компьютерным системам. Это позволит превратить Интернет в распределённую базу знаний глобального масштаба.

    Для поиска в указателе пользователь должен сформулировать запрос и отправить его в поисковую машину. Запрос может быть очень простым, как минимум он должен состоять из одного слова. Для построения более сложного запроса нужно использовать булевы операторы, позволяющие уточнять и расширять условия поиска.

    Чаще всего используются такие булевы операторы:

    • AND - все выражения, соединенные оператором «AND», должны присутствовать на искомых страницах или в документах. В некоторых поисковых машинах вместо слова AND используется оператор «+».
    • OR - по крайней мере, одно из выражений, соединенных оператором «OR», должно присутствовать на искомых страницах или в документах.
    • NOT - выражение или выражения, следующие за оператором «NOT» не должно (не должны) появляться на искомых страницах или в документах. В некоторых поисковых машинах вместо слова NOT используется оператор «-».
    • FOLLOWED BY - одно из выражений должно следовать непосредственно за другим.
    • NEAR - одно из выражений должно находиться на расстоянии от другого, не большем, чем заданное количество слов.
    • Кавычки - заключенные в кавычки слова рассматриваются как фраза, которую следует найти в документе или файле.

    Перспективы развития поисковых систем

    Задаваемый булевыми операторами поиск является буквальным - машина осуществляет поиск слов или фраз точно в таком виде, в каком их ввели. Это может порождать проблемы, когда введенные слова многозначны. Например, английское слово «Bed» может означать кровать, клумбу, место, где рыба мечет икру, и многое другое. Если пользователя интересует только одно из этих значений, ему не нужны страницы со словом, имеющим другие значения. Можно построить буквальный поисковый запрос, нацеленный на отсечение нежелательных значений, но было бы неплохо, если бы сама поисковая машина могла оказывать соответствующую помощь.

    Один из вариантов работы поисковой машины - концептуальный поиск. Часть такого поиска предусматривает использование статистического анализа страниц, содержащих введенные пользователем слова или фразы, для нахождения других страниц, которые могли бы этого пользователя заинтересовать. Понятно, что для концептуального поиска требуется хранить больше информации о каждой странице, и каждый поисковый запрос потребует большего числа вычислений. В настоящее время многие группы разработчиков занимаются повышением результативности и производительности поисковых машин такого типа. Другие исследователи сфокусировались на иной области, которую именуют естественно-языковыми запросами (natural-language queries).

    Идея естественно-языковых запросов состоит в том, чтобы пользователь формулировал запрос так же, как он бы спрашивал у человека, сидящего рядом - при этом не нужно отслеживать булевы операторы или сложные структуры запросов. Наиболее популярным современным сайтом с естественно-языковыми поисковыми запросами является AskJeeves.com, анализирующий запрос с целью выявления ключевых слов, которые затем используются для поиска в построенном этой поисковой машиной указателе сайтов. Упомянутый сайт работает только с простыми поисковыми запросами, однако разработчики в условиях жесткой конкуренции занимаются разработкой машины с естественно-языковыми поисковыми запросами, способной обрабатывать очень сложные запросы.