Saturday, 23 May 2015

MEMEX: Nuevo y muy potente motor de búsqueda de Web Oscuro (Deep Web)

Motores de búsqueda de Google sólo indexa 5% de la Internet. Los sitios web que podemos ver a través de motores de búsqueda es llama como Surface Web. El resto de 95% de Internet se llama Deep Web. Páginas web de Deep Web no pueden ser indexadas por los motores de búsqueda y hay mucha actividad ilegal pasando en estos sitios de Dark Web. Para resolver estos problemas, el gobierno de Estados Unidos está financiando un proyecto para la creación del motor de búsqueda de Deep Web. Esto no sólo permitirá que el gobierno de Estados Unidos tenga el control de Internet por completo, pero también detener los delitos como la trata de personas, menciona Mike Stevens quien es el profesor de capacitación de seguridad de información de IICS.
El motor de búsqueda se denomina Memex; y registra todos los sitios web que los buscadores normales no pueden indexar, y presenta los resultados de forma gráfica para que los vínculos ocultos puedan ser identificados.
El gobierno de Estados Unidos está centrando en Memex para resolver problema de la trata de personas ya que se basa en gran medida en la Internet para atraer clientes. Sin embargo, el gobierno tiene planes de ir contra la ciber-delincuencia de Deep Web.
La web oscura pronto podría ser mucho más brillante con este nuevo motor de búsqueda que tiene como objetivo criminales. Memex depende en gran medida sobre indexación de los foros, servicios de chat, las ofertas de trabajo y otros servicios ocultos que permiten el comercio en Deep Web. Memex hará un
seguimiento y un mapa de la conexión entre los anuncios ilícitos con detalles de los delincuentes quienes publican esos. La búsqueda de imágenes se centra en los metadatos de imagen como número de serie de la cámara y comparación de imágenes para encontrar la coincidencia exacta según expertos de capacitación de seguridad de información.
Memex explora Deep Web para los anuncios que mandan los usuarios a sitios donde existen pornografía infantil u otra esclavitud humana. Por lo tanto, indexara las imágenes, fuentes y sitios web para que la información se puede utilizar para rastreara los criminales. Además toma los números de teléfono e información de correos electrónicos para rastrearlos. Memex ha sido diseñado para los usuarios normales sin antecedentes técnicos.

Memex tiene dos crawlers, Ache y Nutch. Ambos crawlers utilizan los datos que recogen en una forma única. Ambos crawlers requieren una lista de URL para indexar, que se llama una lista de seeds.
Nutch está desarrollado por Apache, y tiene interacción conSolr y Elasticsearch, y esto hace Memex diferente de Ache. Nutch ejecuta en rondas continuas de crawl. Nutch se ejecutará indefinidamente hasta que detuvimos. El número de páginas para crawl aumenta significativamente después de cada ronda en Nutch. Con Nutch, puede comenzar con una lista de seeds de 100 URL’s, y se puede encontrar más de 1000 páginas para crawl en la siguiente ronda.

Ache es desarrollado por la NYU. Ache es diferente de Nutch porque tenemos que crear un modelo de crawl antes de poder ejecutar un crawl. A diferencia de Nutch, Ache se puede detener en cualquier momento.

De acuerdo con profesor de capacitación de seguridad de información, el proyecto Memex está todavía en desarrollo sin embargo, está disponible para público en general para uso. Para ver como instalar Memex pueden abrir Gethub y buscar Memex-Explorer.

0 comments:

Post a Comment