Motores de búsqueda de Google sólo indexa 5% de la
Internet. Los sitios web que podemos ver a través de motores de búsqueda es
llama como Surface Web. El resto de 95% de Internet se llama Deep Web. Páginas
web de Deep Web no pueden ser indexadas por los motores de búsqueda y hay mucha
actividad ilegal pasando en estos sitios de Dark Web. Para resolver estos
problemas, el gobierno de Estados Unidos está financiando un proyecto para la
creación del motor de búsqueda de Deep Web. Esto no sólo permitirá que el
gobierno de Estados Unidos tenga el control de Internet por completo, pero
también detener los delitos como la trata de personas, menciona Mike Stevens
quien es el profesor de capacitación
de seguridad de información de
IICS.
El motor de búsqueda se denomina Memex; y registra todos los sitios web que los buscadores
normales no pueden indexar, y presenta los resultados de forma gráfica para que
los vínculos ocultos puedan ser identificados.
El gobierno de Estados Unidos está centrando en Memex
para resolver problema de la trata de personas ya que se basa en gran medida en
la Internet para atraer clientes. Sin embargo, el gobierno tiene planes de ir
contra la ciber-delincuencia de Deep Web.
La web oscura pronto podría ser mucho más brillante
con este nuevo motor de búsqueda que tiene como objetivo criminales. Memex
depende en gran medida sobre indexación de los foros, servicios de chat, las
ofertas de trabajo y otros servicios ocultos que permiten el comercio en Deep
Web. Memex hará un
seguimiento y un mapa
de la conexión entre los anuncios ilícitos con detalles de los delincuentes
quienes publican esos. La búsqueda de imágenes se centra en los metadatos de
imagen como número de serie de la cámara y comparación de imágenes para
encontrar la coincidencia exacta según expertos de capacitación de seguridad de
información.
Memex explora Deep Web para los anuncios que mandan
los usuarios a sitios donde existen pornografía infantil u otra esclavitud
humana. Por lo tanto, indexara las imágenes, fuentes y sitios web para que la
información se puede utilizar para rastreara los criminales. Además toma los
números de teléfono e información de correos electrónicos para rastrearlos.
Memex ha sido diseñado para los usuarios normales sin antecedentes técnicos.
Memex tiene dos crawlers, Ache y Nutch. Ambos crawlers utilizan los datos que recogen en una
forma única. Ambos crawlers requieren una lista de URL para indexar, que se
llama una lista de seeds.
Nutch está desarrollado por Apache, y tiene interacción conSolr y Elasticsearch, y esto
hace Memex diferente de Ache. Nutch ejecuta en rondas continuas de crawl. Nutch
se ejecutará indefinidamente hasta que detuvimos. El número de páginas para
crawl aumenta significativamente después de cada ronda en Nutch. Con Nutch,
puede comenzar con una lista de seeds de 100 URL’s, y se puede encontrar más de
1000 páginas para crawl en la siguiente ronda.
Ache es desarrollado por la NYU. Ache es diferente de Nutch porque tenemos que crear
un modelo de crawl antes de poder ejecutar un crawl. A diferencia de Nutch,
Ache se puede detener en cualquier momento.
De acuerdo con profesor de
capacitación de seguridad de información, el proyecto Memex está todavía en
desarrollo sin embargo, está disponible para público en general para uso. Para
ver como instalar Memex pueden abrir Gethub y buscar Memex-Explorer.
0 comments:
Post a Comment