Como montar un buscador Web para nuestra documentación

¿Cuántos no han deseado montar un buscador eficiente a la documentación compartida en su web? Si tenemos una gran cantidad de información compartida en una web con Debian y a los usuarios de la misma se le hace difícil encontrar lo que estas buscando Hyper Estraier es la solución a su problema.
 
¿Qué es Hyper Estraier?
 
Hyper Estraier es un sistema de búsqueda de texto completo. Puede buscar documentos mediante las palabras especificadas. Si se tiene un sitio web, es útil como su propio motor de búsqueda de páginas del sitio. También, es útil en servicios públicos de búsqueda de buzones de correo y servidores de archivos.
La característica de Hyper Estraier

De alto rendimiento de la búsqueda
Alta escalabilidad de los documentos de destino
Razón de exhaustividad perfecta por método N-gram
De alta precisión por un mecanismo híbrido de analizador de N-gramas y morfológicas
Búsqueda de frases, expresiones regulares, búsqueda de atributos, y búsqueda de similitudes
El plurilingüismo, con Unicode
Independiente del formato de archivo y depósito
Inteligente rastreador web
API sencilla y potente
El apoyo a la arquitectura P2P

 
Instalación
Los pasos para montarlo en debian lenny son los siguientes:

apt-get update
apt-get install hyperestraier

Primero, creamos un directorio donde guardar los índices, y nos movemos a él:

mkdir /var/www/hyperestraier
cd /var/www/hyperestraier

Ahora, ejecutamos la recogida de información, donde mi_indice es el nombre del índice elegido, y /home/doc el camino a la carpeta donde se encuentra lo que deseamos indexar:

Comenzamos la indexación tecleando en la consola

estcmd gather -sd mi_indice /home/doc
Si deseamos actualizar el índice lo ejecutamos de la siguiente forma:
 estcmd gather –sd -cm mi_indice /home/doc
Si deseamos indexar solo ficheros .doc,.xls,.ppt,:
estcmd gather -cl -fx ".doc,.xls,.ppt" "H@estfxmsotohtml" -fz -sd -cm indice /home/doc
Para ficheros PDF
estcmd gather -cl -fx ".ppt" "H@estfxpdftohtml" -fz -sd -cm indice /home/doc
Si queremos incluir más ficheros que los escogidos solo quitamos la opción -fz
Ojo cuando tenemos archivos html, txt,doc,xls, ppt y pdf juntos en la misma documentación tendremos que usar la combinación de todas la indexaciones anteriores para lograr un único índice con toda la información.

Después, debemos situar los archivos necesarios para ejecutar el cgi:

cd /usr/lib/cgi-bin
cp /usr/share/hyperestraier/estseek.* /usr/lib/cgi-bin/
cp /usr/lib/estraier/estseek.cgi /usr/lib/cgi-bin/

Luego, con su editor de textos favorito, edite el archivo estseek.conf y modifique las siguientes líneas (puede ignorar lo demás):

nano /usr/lib/cgi-bin/estseek.conf
idexname:
replace:

debe quedar así

indexname: /var/www/hyperestraier/mi_indice
replace: file:///home/doc/ {{|}} http://tudominio.com
¡Hora de probar! ¡Vaya a http://tudominio.com/cgi-bin/estseek.cgi y busque su palabra favorita!
Si queremos agregar un formulario para una web dentro del mismo dominio que use este motor búsqueda colocalmos este código html en nuestra web. 
<form method="get" action="estseek.cgi"> <div> <input type="text" name="phrase" value="" size="32" /> <input type="submit" value="Search" /> <input type="hidden" name="enc" value="UTF-8" /> </div> </form> 
     listo a disfrutar

Nota: La documentación a la que deseo hacer el índice tiene que estar compartida en la web.
Autor original: 
Carlos Martínez Gómez
Categoría: