Софт и сервисы для профессионального поиска

Для профессионального поиска в Интернете необходимы специализированный софт, а также специализированные поисковики и поисковые сервисы.

ПРОГРАММЫ

http://dr-watson.wix.com/home – программа предназначена для исследования массивов текстовой информации с целью выявления сущностей и связей между ними. Результат работы – отчет об исследуемом объекте.

http://www.fmsasg.com/ - одна из лучших в мире программ по визуализации связей и отношений Sentinel Vizualizer . Компания полностью русифицировала свои продукты и подключил горячую линию на русском.

http://www.newprosoft.com/ – “Web Content Extractor” является наиболее мощным, простым в использовании ПО извлечения данных из web сайтов. Имеет также эффективный Visual Web паук.

SiteSputnik не имеющий в мире аналогов программный комплекс, позволяющий вести поиск и обработку его результатов в Видимом и Невидимом Интернете, используя все необходимые пользователю поисковики.

WebSite-Watcher – позволяет проводить мониторинг веб-страниц, включая защищенные паролем, мониторинг форумов, RSS каналов, групп новостей, локальных файлов. Обладает мощной системой фильтров. Мониторинг ведется автоматически и поставляется в удобном для пользователя виде. Программа с расширенными функциями стоит 50 евро. Постоянно обновляется.

http://www.scribd.com/ – наиболее популярная в мире и все более широко применяемая в России платформа размещения различного рода документов, книг и т.п. для свободного доступа с очень удобным поисковиком по названиям, темам и т.п.

http://www.atlasti.com/ – представляет собой самый мощный и эффективный из доступных для индивидуальных пользователей, небольшого и даже среднего бизнеса инструмент качественного анализа информации. Программа многофункциональная и потому полезная. Совмещает в себе возможности создания единой информационной среды для работы с различными текстовыми, табличными, аудио и видеофайлами, как единым целым, а также инструменты качественного анализа и визуализации.

Ashampoo ClipFinder HD – все возрастающая доля информационного потока приходится на видео. Соответственно, конкурентным разведчикам нужны инструменты, позволяющие работать с этим форматом. Одним из таких продуктов является представляемая бесплатная утилита. Она позволяет осуществлять поиск роликов по заданным критериям на видеофайловых хранилищах типа YouTube. Программа проста в использовании, выводит на одну страницу все результаты поиска с подробными сведениями, названиями, длительностью, временем, когда видео было загружено в хранилище и т.п. Имеется русский интерфейс.

http://www.advego.ru/plagiatus/ – программа сделана seo оптимизаторами, но вполне подходит как инструмент интернет-разведки. Плагиатус показывает степень уникальности текста, источники текста, процент совпадения текста. Также программа проверяет уникальность указанного URL. Программа бесплатная.

http://neiron.ru/toolbar/ – включает надстройку для объединения поиска Google и Yandex, а также позволяет осуществлять конкурентный анализ, базирующийся на оценке эффективности сайтов и контекстной рекламы. Реализован как плагин для FF и GC.

http://web-data-extractor.net/ – универсальное решение для получения любых данных, доступных в интернете. Настройка вырезания данных с любой страницы производится в несколько кликов мыши. Вам нужно просто выбрать область данных, которую вы хотите сохранять и Datacol сам подберет формулу для вырезания этого блока.

CaptureSaver – профессиональный инструмент исследования интернета. Просто незаменимая рабочая программа, позволяющая захватывать, хранить и экспортировать любую интернет информацию, включая не только web страницы, блоги, но и RSS новости, электронную почту, изображения и многое другое. Обладает широчайшим функционалом, интуитивно понятным интерфейсом и смешной ценой.

http://www.orbiscope.net/en/software.html – система веб мониторинга по более чем доступным ценам.

http://www.kbcrawl.co.uk/ – программное обеспечение для работы, в том числе в «Невидимом интернете».

http://www.copernic.com/en/products/agent/index.html – программа позволяет вести поиск, используя более 90 поисковых систем, более чем по 10 параметрам. Позволяет объединять результаты, устранять дубликаты, блокировать нерабочие ссылки, показывать наиболее релевантные результаты. Поставляется в бесплатной, личной и профессиональной версиях. Используется больше чем 20 млн.пользователей.

Maltego – принципиально новое программное обеспечение, позволяющее устанавливать взаимосвязь субъектов, событий и объектов в реале и в интернете.

СЕРВИСЫ

new https://hunter.io/ – эффективный сервис для обнаружения и проверки email.

https://www.whatruns.com/ – простой в использовании, но эффективный сканер, позволяющий обнаружить, что работает и не работает на веб-сайте и каковы дыры в безопасности. Реализован также как плагин к Chrom.

https://www.crayon.co/ – американская бюджетная платформа рыночной и конкурентной разведки в интернете.

http://www.cs.cornell.edu/~bwong/octant/ – определитель хостов.

https://iplogger.ru/ – простой и удобный сервис для определения чужого IP .

http://linkurio.us/ – новый мощный продукт для работников экономической безопасности и расследователей коррупции. Обрабатывает и визуализирует огромные массивы неструктурированной информации из финансовых источников.

http://www.intelsuite.com/en – англоязычная онлайн платформа для конкурентной разведки и мониторинга.

http://yewno.com/about/ – первая действующая система перевода информации в знания и визуализации неструктурированной информации. В настоящее время поддерживает английский, французский, немецкий, испанский и португальский языки.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозно-аналитические сервисы Андрея Масаловича.

https://www.outwit.com/products/hub/ – полный набор автономных программ для профессиональной работы в web 1.

https://github.com/search?q=user%3Acmlh+maltego – расширения для Maltego.

http://www.whoishostingthis.com/ – поисковик по хостингу, IP адресам и т.п.

http ://appfollow .ru / – анализ приложений на основе отзывов, ASO оптимизации, позиций в топах и поисковых выдачах для App Store , Google Play и Windows Phone Store .

http://spiraldb.com/ – сервис, реализованный как плагин к Chrom , позволяющий получить множество ценной информации о любом электронном ресурсе.

https://millie.northernlight.com/dashboard.php?id=93 - бесплатный сервис, собирающий и структурирующий ключевую информацию по отраслям и компаниям. Есть возможность использования информационных панелей основанных на текстовом анализе.

http://byratino.info/ – сбор фактографических данных из общедоступных источников в сети Интернет.

http://www.datafox.co/ – CI платформа собирающая и анализирующая информацию по интересующим клиентов компаниям. Есть демо.

https://unwiredlabs.com/home - специализированное приложение с API для поиска по геолокации любого устройства, подключенного к интернету.

http://visualping.io/ – сервис мониторинга сайтов и в первую очередь имеющихся на них фотографий и изображений. Даже если фотография появилась на секунду, она будет в электронной почте подписчика. Имеет плагин для G oogleC hrome.

http://spyonweb.com/ – исследовательский инструмент, позволяющий осуществить глубокий анализ любого интернет-ресурса.

http://bigvisor.ru/ – сервис позволяет отслеживать рекламные компании по определенным сегментам товаров и услуг, либо конкретным организациям.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкция Артема Агеева по использованию программ Windows для нужд конкурентной разведки.

http://granoproject.org/ – инструмент с открытым исходным кодом для исследователей, которые отслеживают сети связей между персонами и организациями в политике, экономике, криминале и т.п. Позволяет соединять, анализировать и визуализировать сведения, полученные из различных источников, а также показывать существенные связи.

http://imgops.com/ – сервис извлечения метаданных из графических файлов и работы с ними.

http://sergeybelove.ru/tools/one-button-scan/ – маленький он-лайн сканер для проверки дыр безопасности сайтов и других ресурсов.

http://isce-library.net/epi.aspx – сервис поиска первоисточников по фрагменту текста на английском языке

https://www.rivaliq.com/ – эффективный инструмент для ведения конкурентной разведки на западных, в первую очередь, европейских и американских рынках товаров и услуг.

http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

http://falcon.io/ – своего рода Rapportive для Web. Он не является заменой Rapportive, а дает дополнительные инструменты. В отличие от Rapportive дает общий профиль человека, как бы склеенный из данных из социальных сетей и упоминаний в web.http://watchthatpage.com/ – сервис, который позволяет автоматически собирать новую информацию с поставленных на мониторинг ресурсов в интернете. Услуги сервиса бесплатные.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – дополнение для Firefox. Следит за обновлениями web-страниц. Полезно для web-сайтов, которые не имеют лент новостей (Atom или RSS).

http://agregator.pro/ – агрегатор новостных и медийных порталов. Используется маркетологами, аналитиками и т.п. для анализа новостных потоков по тем или иным темам.

http://price.apishops.com/ – автоматизированный веб-сервис мониторинга цен по выбранным товарным группам, конкретным интернет-магазинам и другим параметрам.

http://www.la0.ru/ – удобный и релевантный сервис анализа ссылок и бэклинков на интернет-ресурс.

www.recordedfuture.com – мощный инструмент анализа данных и их визуализации, реализованный как он-лайн сервис, построенный на «облачных» вычислениях.

http://advse.ru/ – сервис под слоганом «Узнай все про своих конкурентов». Позволяет в соответствии с поисковыми запросами получить сайты конкурентов, анализировать рекламные компании конкурентов в Google и Yandex.

http://spyonweb.com/ – сервис позволяет определить сайты с одинаковыми характеристиками, в том числе, использующими одинаковые идентификаторы сервиса статистики Google Analytics, IP адреса и т.п.

http://www.connotate.com/solutions – линейка продуктов для конкурентной разведки, управления информационными потоками и преобразования сведений в информационные активы. Включает как сложные платформы, так и простые дешевые сервисы, позволяющие эффективно вести мониторинг вместе с компрессией информации и получением только нужных результатов.

http://www.clearci.com/ – платформа конкурентной разведки для бизнеса различных размеров от стартапов и маленьких компаний до компаний из списка Fortune 500. Решена как saas.

http://startingpage.com/ – надстройка на Google, позволяющая вести поиск в Google без фиксации вашего IP адреса. Полностью поддерживает все поисковые возможности Google, в том числе и а русском языке.

http://newspapermap.com/ – уникальный сервис, очень полезный для конкурентного разведчика. Соединяет геолокацию с поисковиком он-лайн медиа. Т.е. вы выбираете интересующий вас регион или даже город, или язык, на карте видите место и список он-лайн версий газет и журналов, нажимаете на соответствующую кнопку и читаете. Поддерживает русский язык, очень удобный интерфейс.

http://infostream.com.ua/ – очень удобная отличающаяся первоклассной выборкой, вполне доступная для любого кошелька система мониторинга новостей «Инфострим» от одного из классиков интернет-поиска Д.В.Ландэ.

http://www.instapaper.com/ – очень простой и эффективный инструмент для сохранения необходимых веб-страниц. Может использоваться на компьютерах, айфонах, айпадах и др.

http://screen-scraper.com/ – позволяет автоматически извлекать всю информацию с веб-страниц, скачивать подавляющее большинство форматов файлов, автоматически вводить данные в различные формы. Скачанные файлы и страницы сохраняет в базах данных, выполняет множество других чрезвычайно полезных функций. Работает под всеми основными платформами, имеет полнофункциональную бесплатную и очень мощные профессиональные версии.

http://www.mozenda.com/- имеющий несколько тарифных планов и доступный даже для малого бизнеса веб сервис многофункционального веб мониторинга и доставки с избранных сайтов необходимой пользователю информации.

http://www.recipdonor.com/ - сервис позволяет осуществлять автоматический мониторинг всего происходящего на сайтах конкурентов.

http://www.spyfu.com/ – а это, если у вас конкуренты иностранные.

www.webground.su – созданный профессионалами Интернет-поиска сервис для мониторинга Рунета, включающий всех основных поставщиков информации, новостей и т.п., способен к индивидуальным настройкам мониторинга под нужды пользователя.

ПОИСКОВИКИ

https ://www .idmarch .org / – лучший по качеству выдачи поисковик мирового архива pdf документов. В настоящее время проиндексировано более 18 млн. pdf документов, начиная от книг, заканчивая секретными отчетами.

http://www.marketvisual.com/ – уникальный поисковик, позволяющий вести поиск собственников и топ-менеджмента по ФИО, наименованию компании, занимаемой позиции или их комбинации. В поисковой выдаче содержатся не только искомые объекты, но и их связи. Рассчитана прежде всего на англоязычные страны.

http://worldc.am/ – поисковик по фотографиям в свободном доступе с привязкой к геолокации.

https://app.echosec.net/ – общедоступный поисковик, который характеризует себя как самый продвинутый аналитический инструмент для правоохранительных органов и профессионалов безопасности и разведки. Позволяет вести поиск фотографий, размещенных на различных сайтах, социальных платформах и в социальных сетях в привязке к конкретным геолокационным координатам. В настоящее время подключено семь источников данных. До конца года их число составит более 450. За наводку спасибо Дементию.

http://www.quandl.com/ – поисковик по семи миллионам финансовых, экономических и социальных баз данных.

http://bitzakaz.ru/ – поисковик по тендерам и госзаказам с дополнительными платными функциями

Website-Finder – дает возможность найти сайты, которые плохо индексирует Google. Единственным ограничением является то, что для каждого ключевого слова он ищет только 30 веб-сайтов. Программа проста в использовании.

http://www.dtsearch.com/ – мощнейший поисковик, позволяющий обрабатывать терабайты текста. Работает на рабочем столе, в интернете и в интранете. Поддерживает как статические, так и динамические данные. Позволяет искать во всех программах MS Office. Поиск ведется по фразам, словам, тегам, индексам и многому другому. Единственная доступная система федеративного поиска. Имеет как платную, так и бесплатную версии.

http://www.strategator.com/ – осуществляет поиск, фильтрацию и агрегацию информации о компании из десятка тысяч веб-источников. Ищет по США, Великобритании, основным странам ЕЭС. Отличается высокой релевантностью, удобностью для пользователя, имеет бесплатные и платный вариант (14$ в месяц).

http://www.shodanhq.com/ – необычный поисковик. Сразу после появления получил кличку «Гугл для хакеров». Ищет не страницы, а определяет IP адреса, типы роутеров, компьютеров, серверов и рабочих станций, размещенных по тому или иному адресу, прослеживает цепочки DNS серверов и позволяет реализовать много других интересных функций для конкурентной разведки.

http://search.usa.gov/ – поисковик по сайтам и открытым базам всех государственных учреждений США. В базах находится много практической полезной информации, в том числе и для использования в нашей стране.

http://visual.ly/ – сегодня все шире для представления данных используется визуализация. Это первый поисковик инфографики в Вебе. Одновременно с поисковиком на портале есть мощные инструменты визуализации данных, не требующие навыков программирования.

http://go.mail.ru/realtime –поиск по обсуждениям тем, событий, объектов, субъектов в режиме реального, либо настраиваемого времени. Ранее крайне критикуемый поиск в Mail.ru работает очень эффективно и дает интересную релевантную выдачу.

Zanran – только что стартовавший, но уже отлично работающий первый и единственный поисковик для данных, извлекающий их из файлов PDF, таблиц EXCEL, данных на страницах HTML.

http://www.ciradar.com/Competitive-Analysis.aspx – одна из лучших в мире систем поиска информации для конкурентной разведки в «глубоком вебе». Извлекает практически все виды файлов во всех форматах по интересующей теме. Реализована как веб-сервис. Цены более чем приемлемые.

http://public.ru/ – Эффективный поиск и профессиональный анализ информации, архив СМИ с 1990 года. Интернет-библиотека СМИ предлагает широкий спектр информационных услуг: от доступа к электронным архивам публикаций русскоязычных СМИ и готовых тематических обзоров прессы до индивидуального мониторинга и эксклюзивных аналитических исследований, выполненных по материалам печати.

Cluuz – молодой поисковик с широкими возможностями для конкурентной разведки, особенно, в англоязычном интернете. Позволяет не только находить, но и визуализировать, устанавливать связи между людьми, компаниями, доменами, e-mail, адресами и т.п.

www.wolframalpha.com – поисковик завтрашнего дня. На поисковый запрос выдает имеющуюся по объекту запроса статистическую и фактологическую информацию, в том числе, визуализированную.

www.ist-budget.ru – универсальный поиск по базам данных госзакупок, торгов, аукционов и т.п.

Что это

DuckDuckGo - это довольно известная поисковая система с открытым исходным кодом. Серверы находятся в США. Кроме собственного робота, поисковик использует результаты других источников: Yahoo, Bing, «Википедии».

Чем лучше

DuckDuckGo позиционирует себя как поиск, обеспечивающий максимальную приватность и конфиденциальность. Система не собирает никаких данных о пользователе, не хранит логи (нет истории поиска), использование файлов cookie максимально ограничено.

DuckDuckGo не собирает личную информацию пользователей и не делится ею. Это наша политика конфиденциальности.

Гэбриел Вайнберг (Gabriel Weinberg), основатель DuckDuckGo

Зачем это вам

Все крупные поисковые системы стараются персонализировать поисковую выдачу на основе данных о человеке перед монитором. Этот феномен получил название «пузырь фильтров»: пользователь видит только те результаты, которые согласуются с его предпочтениями или которые система сочтёт таковыми.

Формирует объективную картину, не зависящую от вашего прошлого поведения в Сети, и избавляет от тематической рекламы Google и «Яндекса», основанной на ваших запросах. При помощи DuckDuckGo легко искать информацию на иностранных языках, тогда как Google и «Яндекс» по умолчанию отдают предпочтение русскоязычным сайтам, даже если запрос введён на другом языке.


Что это

not Evil - система, осуществляющая поиск по анонимной сети Tor. Для использования нужно зайти в эту сеть, например запустив специализированный .

not Evil не единственный поисковик в своём роде. Есть LOOK (поиск по умолчанию в Tor-браузере, доступен из обычного интернета) или TORCH (один из самых старых поисковиков в Tor-сети) и другие. Мы остановились на not Evil из-за недвусмысленного намёка на Google (достаточно посмотреть на стартовую страницу).

Чем лучше

Ищет там, куда Google, «Яндексу» и другим поисковикам вход закрыт в принципе.

Зачем это вам

В сети Tor много ресурсов, которые невозможно встретить в законопослушном интернете. И их число будет расти по мере того, как ужесточается контроль властей над содержанием Сети. Tor - это своеобразная сеть внутри Сети со своими социалками, торрент-трекерами, СМИ, торговыми площадками, блогами, библиотеками и так далее.

3. YaCy

Что это

YaCy - децентрализованная поисковая система, работающая по принципу сетей P2P. Каждый компьютер, на котором установлен основной программный модуль, сканирует интернет самостоятельно, то есть является аналогом поискового робота. Полученные результаты собираются в общую базу, которую используют все участники YaCy.

Чем лучше

Здесь сложно говорить, лучше это или хуже, так как YaCy - это совершенно иной подход к организации поиска. Отсутствие единого сервера и компании-владельца делает результаты полностью независимыми от чьих-то предпочтений. Автономность каждого узла исключает цензуру. YaCy способен вести поиск в глубоком вебе и неиндексируемых сетях общего пользования.

Зачем это вам

Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy - это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.

4. Pipl

Что это

Pipl - система, предназначенная для поиска информации о конкретном человеке.

Чем лучше

Авторы Pipl утверждают, что их специализированные алгоритмы ищут эффективнее, чем «обычные» поисковики. В частности, приоритетными являются профили социальных сетей, комментарии, списки участников и различные базы данных, где публикуются сведения о людях, например базы судебных решений. Лидерство Pipl в этой области подтверждено оценками Lifehacker.com, TechCrunch и других изданий.

Зачем это вам

Если вам нужно найти информацию о человеке, проживающем в США, то Pipl будет намного эффективнее Google. Базы данных российских судов, видимо, недоступны для поисковика. Поэтому с гражданами России он справляется не так хорошо.

Что это

FindSounds - ещё один специализированный поисковик. Ищет в открытых источниках различные звуки: дом, природа, машины, люди и так далее. Сервис не поддерживает запросы на русском языке, но есть внушительный список русскоязычных тегов, по которым можно выполнять поиск.

Чем лучше

В выдаче только звуки и ничего лишнего. В настройках можно выставить желаемый формат и качество звучания. Все найденные звуки доступны для скачивания. Имеется поиск по образцу.

Зачем это вам

Если вам нужно быстро найти звук мушкетного выстрела, удары дятла-сосуна или крик Гомера Симпсона, то этот сервис для вас. И это мы выбрали только из доступных русскоязычных запросов. На английском языке спектр ещё шире.

Если серьёзно, специализированный сервис предполагает специализированную аудиторию. Но вдруг и вам пригодится?

Что это

Wolfram|Alpha - вычислительно-поисковая система. Вместо ссылок на статьи, содержащие ключевые слова, она выдаёт готовый ответ на запрос пользователя. Например, если ввести в форму поиска «сравнить население Нью-Йорка и Сан-Франциско» на английском, то Wolfram|Alpha сразу выведет на экран таблицы и графики со сравнением.

Чем лучше

Этот сервис лучше других подходит для поиска фактов и вычисления данных. Wolfram|Alpha накапливает и систематизирует доступные в Сети знания из различных областей, включая науку, культуру и развлечения. Если в этой базе находится готовый ответ на поисковый запрос, система показывает его, если нет - вычисляет и выводит результат. При этом пользователь видит только и ничего лишнего.

Зачем это вам

Если вы, например, студент, аналитик, журналист или научный сотрудник, то можете использовать Wolfram|Alpha для поиска и вычисления данных, связанных с вашей деятельностью. Сервис понимает не все запросы, но постоянно развивается и становится умнее.

Что это

Метапоисковик Dogpile выводит комбинированный список результатов из поисковых выдач Google, Yahoo и других популярных систем.

Чем лучше

Во-первых, Dogpile отображает меньше рекламы. Во-вторых, сервис использует особый алгоритм, чтобы находить и показывать лучшие результаты из разных поисковиков. Как утверждают разработчики Dogpile, их системы формирует самую полную выдачу во всём интернете.

Зачем это вам

Если вы не можете найти информацию в Google или другом стандартном поисковике, поищите её сразу в нескольких поисковиках с помощью Dogpile.

Что это

BoardReader - система для текстового поиска по форумам, сервисам вопросов и ответов и другим сообществам.

Чем лучше

Сервис позволяет сузить поле поиска до социальных площадок. Благодаря специальным фильтрам вы можете быстро находить посты и комментарии, которые соответствуют вашим критериям: языку, дате публикации и названию сайта.

Зачем это вам

BoardReader может пригодиться пиарщикам и другим специалистам в области медиа, которых интересует мнение массовой по тем или иным вопросам.

В заключение

Жизнь альтернативных поисковиков часто бывает скоротечной. О долгосрочных перспективах подобных проектов Лайфхакер спросил бывшего генерального директора украинского филиала компании «Яндекс» Сергея Петренко .


Сергей Петренко

Бывший генеральный директор «Яндекс.Украины».

Что касается судьбы альтернативных поисковиков, то она проста: быть очень нишевыми проектами с небольшой аудиторией, следовательно без ясных коммерческих перспектив или, наоборот, с полной ясностью их отсутствия.

Если посмотреть на примеры в статье, то видно, что такие поисковики либо специализируются в узкой, но востребованной нише, которая, возможно только пока, не выросла настолько, чтобы оказаться заметной на радарах Google или «Яндекса», либо тестируют оригинальную гипотезу в ранжировании, которая пока не применима в обычном поиске.

Например, если поиск по Tor вдруг окажется востребованным, то есть результаты оттуда понадобятся хотя бы проценту аудитории Google, то, конечно, обычные поисковики начнут решать проблему, как их найти и показать пользователю. Если поведение аудитории покажет, что заметной доле пользователей в заметном количестве запросов более релевантными кажутся результаты, данные без учёта факторов, зависящих от пользователя, то «Яндекс» или Google начнут давать такие результаты.

«Быть лучше» в контексте этой статьи не означает «быть лучше во всём». Да, во многих аспектах нашим героям далеко до и «Яндекса» (даже до Bing далековато). Но зато каждый из этих сервисов даёт пользователю нечто такое, чего не могут предложить гиганты поисковой индустрии. Наверняка вы тоже знаете подобные проекты. Поделитесь с нами - обсудим.

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

  • Полнота

    Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.

  • Точность

    Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.

  • Актуальность

    Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.

  • Скорость поиска

    Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.

  • Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

  • URL страницы
  • дата, когда страница была скачана
  • http-заголовок ответа сервера
  • тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

  • Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  • Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  • В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  • Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  • Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

  • Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
  • Основные характеристики поисковых систем:
    1. Полнота
    2. Точность
    3. Актуальность
    4. Скорость поиска
    5. Наглядность
  • Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
  • В состав поисковой системы входят компоненты:
    1. Модуль индексирования
    2. База данных
    3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

С каждым днем объем информации с сети, а значит и на компьютерах пользователей, увеличивается. На жестких дисках рядового юзера количество файлов может достигать нескольких сотен, и найти нужный в общей массе бывает совсем не просто. Стандартный поисковик Windows не всегда работает быстро и обладает весьма скудным функционалом, поэтому имеет смысл пользоваться сторонними программами.

В этом обзоре рассмотрим несколько программ, которые помогут отыскать нужные данные на компьютере.

Данная программа является, пожалуй, наиболее мощным инструментом для выполнения поиска на дисках ПК. Имеет множество тонких настроек, фильтров и функций. В состав дистрибутива также включены дополнительные утилиты для взаимодействия с файловой системой.

Одной из отличительных особенностей Search My Files является возможность полного удаления файлов путем перезаписи нулями или случайными данными.

SearchMyFiles

Search My Files часто путают с предыдущим софтом ввиду созвучного названия. Эта программа отличается тем, что более проста в использовании, но вместе с тем, в ней отсутствуют некоторые функции, например, поиск на сетевых дисках.

Everything

Простенькая поисковая программка со своими особенностями. Everything умеет искать данные не только на локальном компьютере, но и на ETP и FTP серверах. Из других представителей подобного софта выделяется тем, что позволяет отслеживать изменения в файловой системе компьютера.

Effective File Search

Еще один очень простой в настройке и работе софт. При совсем крошечном размере имеет достаточное количество функций, способен экспортировать результаты в текстовые и табличные файлы, может быть установлен на флешку.

UltraSearch

UltraSearch может находить не только файлы и папки, но и искать информацию в содержимом документов по ключевой фразе или слову. Главной отличительной чертой программы является автоматическая инициализация подключаемых носителей.

REM

REM отличается более дружелюбным интерфейсом, нежели предыдущие участники. Принцип работы программы заключается в создании зон, файлы в которых индексируются автоматически, что позволяет значительно ускорить процесс поиска. Зоны можно создавать не только на локальном компьютере, но и на дисках в сети.

Google Desktop Search

Разработанный всемирно известной компанией, Google Desktop Search представляет собой маленький локальный поисковик. С его помощью можно разыскивать информацию как на домашнем ПК, так и в интернете. В дополнение к основной функции, в программе предусмотрено использование информационных блоков – гаджетов для рабочего стола.

Все программы, приведенные в данном списке, отлично подходят для замены «родного» поиска Windows. Выбирайте сами: установить софт попроще, но с меньшим набором функций, или целый поисковый комбайн с возможностью обработки файлов. Если вы работаете с папками и дисками в локальной сети, то вам подойдут REM и Everything, а если планируете «носить программу с собой», то обратите внимание на Effective File Search или Search My Files.

С расцветом цензуры и слежения альтернативы Google и Яндекс интересуют пользователей все больше и больше. Мы расскажем вам о трех поисковых системах без запретов, которые не собирают о вас личную информацию, а, напротив, защищают вашу приватность.

Startpage: самая дискретная поисковая система в мире

Startpage.com называет себя «самой дискретной поисковой системой в мире». С 2016 года сервис был объединен с сайтом Ixquick. В качестве доказательства безопасности своего поиска Startpage.com позиционирует себя как единственная поисковая система, имеющая сертификат ЕС о конфиденциальности.

Startpage.com обещает не сохранять IP-адреса пользователей и, по утверждению сервиса, не использует файлы cookie для трекинга. Кроме того, Startpage.com доступен из сети Tor. Серверы поисковой системы находятся в Нидерландах.

У сайта есть удобная особенность: результаты поиска можно просматривать при помощи опции «Прокси», которая шифрует соединение с соответствующей веб-страницей с помощью прокси-сервера. Таким образом, это настоящий поисковик без запретов: можно спокойно просматривать то, что блокирует ваш провайдер.

Поисковые прокси: Startpage спокойно обходит блокировку Яндекс.DNS

Поисковые прокси - главная фишка Startpage, которые делают его поисковиком без цензуры. Если вам необходимо искать без блокировок, этот сервис для вас.

DuckDuckGo: анонимная поисковая система из США

DuckDuckGo - наиболее широко используемая безопасная альтернатива Google с более чем десятью миллионами запросов в день. Несмотря на то, что серверы поисковой системы находятся в США, DuckDuckGo.com, тем не менее, предлагает некоторые интересные функции.

При поиске через DuckDuckGo.com ваш IP-адрес не будет сохранен. Система также н е использует файлы cookie для отслеживания. DuckDuckGo применяет шифрование с использованием HTTPS. В поисковую систему также можно ввести запрос через сеть Tor. Кроме того, можно использовать различные темы, чтобы настроить отображение поисковой страницы.

Открывать сайты через прокси тут нельзя. Но с учетом того, что система находится вне юрисдикции РФ, на него не распространяется, к примеру, «право на забвение» в том смысле, в котором оно понимается у нас. Результаты поиска могут быть не идеальными, но все же довольно полезными.


Право на забвение: DuckDuckGo находит сайты с компроматом, заблокированные в РФ. Google — только новости

Этот сервис больше подойдет тем, кому в первую очередь важна анонимность и поиск без слежения. Либо тем, кто хочет найти информацию, исключенную из результатов поисковой выдачи в РФ. Однако, следует предупредить: в России DuckDuckGo стал партнером Яндекса, так что можно ожидать всего.

notEvil: поиск по интернету, которого нет

Поисковик notEvil позволяет осуществлять поиск из интернета по анонимной сети Tor. Для этого не надо устанавливать никакого дополнительного программного обеспечения (хотя оно, понадобится для того, чтобы открывать результаты поиска).

Эта поисковая система позволяет искать по так называемому даркнету - той части Интернета, которая обычно недоступна среднему пользователю. В связи с блокировками в нее постепенно переезжают полезные сервисы, например, для скачивания контента.

Большинство веб-поисковиков по Tor бессовестно зарабатывают на рекламе: вы получаете результаты из Tor, и вдобавок - горсть рекламных объявлений и трекинг в подарок. notEvil принципиально этим не занимается. Понятное дело, что об отслеживании IP и использовании cookie речь тут вообще не идет.


notEvil: помогает найти в Tor то, чего в интернете может не быть

Сайт пригодится тем, кто хочет познакомиться с содержимым невидимого интернета; хардкорная анонимность гарантируется. Кстати, рекомендуем сразу сохранить себе ссылку в закладки - URL-адреса категории « Tor-to-web» очень недружелюбны в плане запоминания.

Анонимные поисковые системы как безопасная альтернатива Google

Все три поисковых системы не регистрируют ваш IP-адрес и не используют файлы cookie для слежки. Шифрование с использованием HTTPS предоставляется всеми названными поставщиками.

Лучшие результаты поиска в тесте показал поисковик DuckDuckGo, а гарантированную безопасность при выборе альтернативного поисковика вы получите с системой Startpage.com. Сертификация защиты данных ЕС подтверждает, что поисковая система придерживается своих обещаний об анонимности поиска. Для поиска по даркнету, в свою очередь, пригодится notEvil.