Новый гибридный веб - сканер для поиска, как в глубинном интернете, так и на поверхности
Распространение терроризма во всем мире привело к увеличению усилий правоохранительных органов (LEAs) в трудном пути обнаружения информации, связанной с террористической деятельностью, по средствам использования последних нововведений в секторе веб-поиска. Их усилия были сосредоточены на «поверхностной сети», представляющие части интернета, которые могут быть проиндексированы традиционными поисковыми системами, например Google, Bing, Yahoo! и Duckduckgo. Тем не менее, эти поисковые системы способны индексировать только небольшой процент страниц, доступных во всемирной паутине. Остальная часть представляет собой неиндексируемое содержимое, являющееся частью так называемой «глубинной сети», обычно включающая в себя веб-страницы, к которым не могут обращаться веб-сканеры или пауки, которые используются традиционными поисковыми системами, из-за множества ограничений. К примеру: динамические страницы, созданные в ответ на конкретные запросы, а также частный контент, требующий персонального доступа.
Сосредоточенные веб - сканеры допускают автоматическое обнаружение веб-контента, относящегося к определенной тематике, посредством процесса, который включает автоматическую навигацию по всей структуре веб-ссылок и подбор рекомендуемых гиперссылок, чтобы предсказать их актуальность в рамках рассматриваемой темы. Недавно опубликованный документ предложил общую ориентированную платформу для сканирования, которая предназначена для обнаружения веб-контента по любой тематике, размещенной как на поверхностном веб - сайте, так и в темной сети. Этот новый веб - сканер закодирован, чтобы безукоризненно перемещаться по различным веб - страницам через поверхностную сеть и некоторые темные сети, которые представляют части глубинного интернета (например, I2P, Tor и Freenet). Во время этого, путем автоматической точной настройки его поведения сканирования и его стратегии выбора гиперссылки, основанной на классификаторе, который определяется типом сети назначения и силой локальных доказательств, которая существует вблизи гиперссылки.
Предлагаемый гибридный синдикат объединяет 11 методов по выбору гиперссылок для создания новой стратегии обхода, которая опирается на динамическую линейную комбинацию, как на основе ссылок, так и на классификатора веб-страниц. Этот новый гибридный веб - сканер был протестирован разработчиками на обнаружении веб-контента, который включил рецепты по изготовлению самодельных взрывчатых веществ. Эксперимент доказал эффективность гибридного искателя в поиске содержимого на поверхностном уровне и в глубокой паутине darknet.
Обзор в рамках нового гибридного механизма:
Новый гибридный манипулятор имеет возможность навигации через поверхностную сеть и несколько темных сетей, включая Tor, Freenet и I2P, и адаптации своей стратегии сканирования в соответствии с сетью, на которую он ориентирован. Искатель полагается на стратегию выбора гиперссылок, которая способна одобрять множество методов, используемых в различных условиях, на основе целевого типа сети каждой посещенной гиперссылки, а также контекста окрестности данной гиперссылки. Таким образом, он использует набор, включающий три классификатора, которые применяются в соответствии с используемой стратегией выбора гиперссылок:
- Классификатор на основе ссылок, который предсказывает актуальность данной гиперссылки на веб-страницу на основе ее отношения к родительской странице;
- Родительский классификатор веб-страниц, который прогнозирует общую релевантность страницы, которая включает гиперссылку на основе ее глобального контекста;
- Целевой классификатор веб-страниц, который прогнозирует релевантность целевой страницы, на которую ссылается гиперссылка, на основе ее фактического текстового контента.
Эти три классификатора используются либо индивидуально, либо в сочетании, поскольку они на основе ссылок объединяются с родительским или целевым классификаторами веб-страниц при выполнении конкретных условий. Предлагаемый гибридный сканер основан на модифицированной версии Apache Nutch (версия 1.9).
На приведенном ниже рисунке показана предлагаемая стратегия обхода гибридного искателя. Первоначально, семя страниц не входит в границы списка. Во время каждой итерации URL-адрес выбирается из списка границ, а затем передается конкретному модулю выборки в соответствии с типом сети (т.е. поверхностью Tor, I2P и Freenet). Затем страница, исправляющая URL-адрес, обрабатывается, чтобы получить свои гиперссылки, которые затем передаются компоненту выбора ссылок. После этого искатель предсказывает актуальность каждого URL-адреса, ссылаясь на нерассмотренную страницу, в соответствии с развернутым методом выбора.