Foro de Informatica
" Hay la misma diferencia entre un sabio y un ignorante que entre un hombre vivo y un cadáver "

- Aristóteles -



        


Google
 
Web www.ComputerFacil.com
Forista del Mes:

Felipex


  Reply to this topicStart new topicStart Poll

> La Indexación
maik
Publicado: May 17 2007, 12:08 AM
Quote Post


* The Founder *
Group Icon

Grupo: Administradores
Mensajes: 4.879
Miembro nº: 2
Registrado: 23-August 04



La indexación es un proceso lento y costoso, pero se cuenta con la ventaja de que solo debe ejecutarse en el momento de crear la biblioteca digital, poniendo atención de actualizarlo cuando haya modificaciones.


La indexación consta de los siguientes pasos:

1. Recorrer todos los documentos sobre los que queremos buscar. Este puede ser un conjunto finito y conocido, por ejemplo: las páginas HTML de una carpeta, o puede ser desconocido: todas las páginas de Internet. En este último caso, los buscadores utilizan los que denominan robots o crawlers (el de Google tiene nombre propio: googlebot): son pequeños programas que van rastreando la estructura de la web en busca de nuevas páginas. Este tipo de programas (también llamados spider, en referencia a la araña que recorre la red), van recolectando páginas a través de los enlaces a otras páginas, así en un ciclo interminable. Una vez que el robot localiza una página, puede procesarla a través del siguiente paso.


2. Procesar el documento a indexar: consiste en descomponerlo hasta obtener la lista de palabras que lo forman. Este proceso puede ser muy sencillo, como en los archivos de texto plano, que tiene todas las palabras separadas por espacios u otros caracteres, o muy complejo, como un documento PDF que debe ser decodificado, separando el formato y las imágenes, extrayendo solamente el texto plano.


3. Una vez que tenemos la lista de palabras de un documento, lo único que nos queda es invertir el índice: almacenar esta lista, apuntando en qué documento se ha encontrado cada palabra. Habrá algunas palabras que solo aparezcan en un documento (la búsqueda de esa palabra nos dará un solo resultado), mientras que otras palabras más comunes aparecerán en muchos documentos.


4. Opcionalmente podemos almacenar el documento, en su estado actual, en la propia biblioteca digital. De esta forma, podemos consultar cualquier documento aunque el original deje de estar disponible.
Vamos a poner un pequeño ejemplo. Pensemos en los tres pequeños textos que aparecen a continuación:


• Texto 1: “Un coche es más rápido que un caballo”
• Texto 2: “Este es un caballo que necesita de un cuidado especial”
• Texto 3: “Cuidado con lo que digas de mi coche”


Estos tres textos serán los tres documentos que formarán esta raquítica biblioteca digital.

La estructura del índice invertido es la que se observa en la siguiente tabla: el índice consta de una serie de entradas, una por palabra, y en cada entrada aparecen los documentos donde se encuentra la palabra.



Palabra Aparece en...
caballo 1, 2
coche 1, 3
con 3
cuidado 2, 3
de 2, 3
digas 3
es 1, 2
especial 2
este 2
lo 3
más 1
mi 3
necesita 2
que 1, 2, 3
rápido 1
un 1, 2


Este índice puede ser enorme: tantas entradas como todas las palabras distintas que existan en toda la biblioteca digital.







--------------------
user posted image user posted image user posted image
Si te sirvió de ayuda el Foro, ayúdanos a crecer poniendo este enlace en tu web: Foro de Informatica
CODE
<a href="http://www.computerfacil.com" title="Foros de Informatica">Foro de Informatica</a>
Gracias! user posted image
PMUsers Website
Top
maik
Publicado: May 17 2007, 12:08 AM
Quote Post


* The Founder *
Group Icon

Grupo: Administradores
Mensajes: 4.879
Miembro nº: 2
Registrado: 23-August 04



Las palabras vacías o términos superfluos

Si abrimos Google e introducimos la búsqueda “domicilio en salamanca de juanito y perico”, se nos informará de que “Las siguientes palabras son muy comunes y no se incluyeron en su búsqueda: en de y”. ¿Qué significa esto? ¿Acaso no puedo buscar frases completas, incluyendo preposiciones y conjunciones? Sí, las búsquedas permiten todo tipo de palabras, pero algunas de ellas no aportan ninguna información a la consulta.


Al conjunto de palabras que consideramos superfluas llamaremos “lista de palabras vacías” (o “lista de parada” o “stoplist”) y tendremos que ignorarlas tanto a la hora de construir los índices como de realizar las búsquedas. Otra posibilidad es ignorar también las palabras que no lleguen a una longitud mínima. De esta forma conseguiremos ignorar palabras muy comunes (como las conjunciones), signos y dígitos: “a”, “y”, “de”, “%” etc.


Hay que tener en cuenta que en un idioma como el castellano, las preposiciones y conjunciones suponen un alto porcentaje de todas las palabras del texto, así que, eliminando estas palabras, se consigue reducir considerablemente el tamaño de los índices y así acelerar tanto la búsqueda como la indexación. La lista de palabras vacías podría variar dependiendo de las características de los textos a indexar.


¿Quieres ganar dinero escribiendo sobre tus aficiones? - www.Redactores.es



--------------------
user posted image user posted image user posted image
Si te sirvió de ayuda el Foro, ayúdanos a crecer poniendo este enlace en tu web: Foro de Informatica
CODE
<a href="http://www.computerfacil.com" title="Foros de Informatica">Foro de Informatica</a>
Gracias! user posted image
PMUsers Website
Top
maik
Publicado: May 17 2007, 12:09 AM
Quote Post


* The Founder *
Group Icon

Grupo: Administradores
Mensajes: 4.879
Miembro nº: 2
Registrado: 23-August 04



Los documentos contenidos en la biblioteca

Las bibliotecas digitales pueden, opcionalmente, almacenar los propios documentos que indexan. Ya no se trata de almacenar la ruta (o URL) donde podemos localizar el documento, sino que podemos almacenar el contenido del documento para extraerlo completamente. De este modo, teniendo acceso a la biblioteca digital podemos acceder al contenido de los documentos, aunque estos ya no existan o no estén disponibles en este momento. Google consigue esto a través de lo que denominan el caché de páginas, donde hacen una copia de la página en el momento que fue indexada. Gracias a él, podemos acceder a páginas que han desaparecido, simplemente haciendo clic en el enlace del caché.

Y por si fuera poco, también se puede almacenar la posición, dentro del documento, en que se ha encontrado cada palabra. Es decir: cuando se indexa un documento se descompone en palabras, almacenando las palabras en el índice invertido, se almacena el documento completo en el caché, y se puede almacenar también la posición donde se encontró cada palabra. Haciendo esto, se puede extraer el párrafo donde aparece el texto buscado, o presentarlo en un color destacado, como hace Google en su caché.






--------------------
user posted image user posted image user posted image
Si te sirvió de ayuda el Foro, ayúdanos a crecer poniendo este enlace en tu web: Foro de Informatica
CODE
<a href="http://www.computerfacil.com" title="Foros de Informatica">Foro de Informatica</a>
Gracias! user posted image
PMUsers Website
Top
0 usuario(s) está(n) leyendo esta discusión (0 invitado(s) y 0 usuario(s) anónimo(s))
0 miembro(s):

Topic Options Reply to this topicStart new topicStart Poll

 


ComputerFacil.com © 2006
          Webs Afiliadas - Contacto
Ofertas PCs :: Consultor de Marketing Online :: Foros :: Posicionamiento Web :: Foros de Informatica :: Foros :: Tonos y Logos :: elhacker