Foro de Informatica
" Hay la misma diferencia entre un sabio y un ignorante que entre un hombre vivo y un cadáver "

- Aristóteles -



        


Google
 
Web www.ComputerFacil.com
Forista del Mes:

Kobas




  Reply to this topicStart new topicStart Poll

> Conceptos Teóricos De Un Buscador De Internet, Google
maik
Publicado: May 5 2007, 08:38 PM
Quote Post


* The Founder *
Group Icon

Grupo: Administradores
Mensajes: 4.880
Miembro nº: 2
Registrado: 23-August 04



Conceptos teóricos de un buscador de Internet: google

Google = Biblioteca digital

Todos estamos muy acostumbrados a teclear “google.com” en nuestro navegador y empezar a buscar todo tipo de páginas. El “buscador” tal o el “buscador” cual está en boca de todos, sin embargo, pocos saben que en realidad, lo que estamos utilizando es una aplicación muy concreta de una “biblioteca digital”, en este caso, una biblioteca cuyos “libros” son todas las páginas que componen Internet.

(http://www.lawebdejm.com/prog/delphi/programar_indexador_google.html )

El estudio e investigación de las bibliotecas digitales corresponde a una rama de la informática llamada Information Retrieval o “Recuperación de la información”, también abreviado como “IR”, y abarca temas como la búsqueda, recuperación, catalogación y preparación de gran cantidad de datos, ya sean estos en forma de texto, multimedia o de cualquier otro tipo.


Las bibliotecas digitales existen mucho antes de los buscadores de Internet, y sus aplicaciones han sido muy variadas: desde esos terminales de pantalla de fósforo verde que encontrábamos en nuestras bibliotecas públicas, hasta los CD-ROM con catálogos de productos o textos de todo tipo (jurídicos, científicos, publicaciones, etc.).


Podemos definir sencillamente una biblioteca digital como “una colección organizada en diversos formatos digitales para los cuales existen servicios tales como clasificación, búsqueda, recuperación y administración”. En esta definición vemos que se habla de “diversos formatos digitales”, y de ciertas tareas que podremos hacer: clasificar, buscar, recuperar y administrar.


Si pensamos en Google, el buscador por excelencia, veremos que cumple (más o menos) con esta definición: almacena una colección organizada en diversos formatos (imágenes de cualquier tipo, textos en formato HTML o PDF, noticias de periódicos…), permitiendo su clasificación (según su relevancia), búsqueda (tecleando las palabras de búsqueda y haciendo clic en “Buscar”), recuperación (llevándonos hasta URL donde reside la información original o a través de su caché) y administración (con la página de preferencias).


En un buscador existen dos procesos muy distintos e importantes: la introducción de la información (y preparación de las estructuras de búsqueda), y la búsqueda en sí. El primer proceso se llama “indexación”, o “indización” si somos más puristas. Este nombre viene del resultado que esperamos obtener: una serie de índices de búsqueda. El segundo proceso es el de “búsqueda”, que se apoyará en los índices que hemos generado en la primera etapa, concretamente en unos tipos de índices especiales llamados “índices de texto invertidos”.


El concepto de índice se puede entender como “esa lista de claves que nos permite llegar rápidamente a los valores”. En vez de recorrer la colección completa en busca de nuestros resultados, recorremos una lista mucho más pequeña, el índice. Si pensamos en el índice de los libros normales, su función es la misma: evitarnos pasar páginas y más páginas buscando un capítulo, si podemos hacerlo echando un vistazo rápido en dos o tres páginas, recorriendo todos los títulos con el dedo.

A la hora de buscar los textos que contengan ciertas palabras, podemos pensar en recorrer todas las palabras de cada documento para ver si está la palabra que buscamos. Esta solución es tremendamente lenta, ya que hay que ir recorriendo toda la colección de textos (que puede ser muy grande), hacer un análisis de cada uno de los documentos para buscar espacios, guiones de separación, etc., y así poder concluir si la palabra buscada está o no está en el texto.

Sin embargo, podemos pensar de otra forma: mantener una lista de todas las palabras existentes en los documentos, anotando en qué documentos aparece cada palabra. A esta lista de palabras, junto con los documentos donde aparece cada una, le llamaremos “índice invertido”. Muchos libros también incluyen este tipo de índice al final de sus páginas, donde se listan todas las palabras relevantes y las páginas donde aparece cada una de estas palabras.






--------------------
user posted image user posted image user posted image
Si te sirvió de ayuda el Foro, ayúdanos a crecer poniendo este enlace en tu web: Foro de Informatica
CODE
<a href="http://www.computerfacil.com" title="Foros de Informatica">Foro de Informatica</a>
Gracias! user posted image
PMUsers Website
Top
dejavi
Publicado: May 15 2007, 05:30 PM
Quote Post


Tera user
Group Icon

Grupo: Moderadores
Mensajes: 3.871
Miembro nº: 17.695
Registrado: 18-January 07



QUOTE (maik @ May 5 2007, 08:38 PM)
Conceptos teóricos de un buscador de Internet: google

Google = Biblioteca digital

Todos estamos muy acostumbrados a teclear “google.com” en nuestro navegador y empezar a buscar todo tipo de páginas. El “buscador” tal o el “buscador” cual está en boca de todos, sin embargo, pocos saben que en realidad, lo que estamos utilizando es una aplicación muy concreta de una “biblioteca digital”, en este caso, una biblioteca cuyos “libros” son todas las páginas que componen Internet.

(http://www.lawebdejm.com/prog/delphi/programar_indexador_google.html )

El estudio e investigación de las bibliotecas digitales corresponde a una rama de la informática llamada Information Retrieval o “Recuperación de la información”, también abreviado como “IR”, y abarca temas como la búsqueda, recuperación, catalogación y preparación de gran cantidad de datos, ya sean estos en forma de texto, multimedia o de cualquier otro tipo.


Las bibliotecas digitales existen mucho antes de los buscadores de Internet, y sus aplicaciones han sido muy variadas: desde esos terminales de pantalla de fósforo verde que encontrábamos en nuestras bibliotecas públicas, hasta los CD-ROM con catálogos de productos o textos de todo tipo (jurídicos, científicos, publicaciones, etc.).


Podemos definir sencillamente una biblioteca digital como “una colección organizada en diversos formatos digitales para los cuales existen servicios tales como clasificación, búsqueda, recuperación y administración”. En esta definición vemos que se habla de “diversos formatos digitales”, y de ciertas tareas que podremos hacer: clasificar, buscar, recuperar y administrar.


Si pensamos en Google, el buscador por excelencia, veremos que cumple (más o menos) con esta definición: almacena una colección organizada en diversos formatos (imágenes de cualquier tipo, textos en formato HTML o PDF, noticias de periódicos…), permitiendo su clasificación (según su relevancia), búsqueda (tecleando las palabras de búsqueda y haciendo clic en “Buscar”), recuperación (llevándonos hasta URL donde reside la información original o a través de su caché) y administración (con la página de preferencias).


En un buscador existen dos procesos muy distintos e importantes: la introducción de la información (y preparación de las estructuras de búsqueda), y la búsqueda en sí. El primer proceso se llama “indexación”, o “indización” si somos más puristas. Este nombre viene del resultado que esperamos obtener: una serie de índices de búsqueda. El segundo proceso es el de “búsqueda”, que se apoyará en los índices que hemos generado en la primera etapa, concretamente en unos tipos de índices especiales llamados “índices de texto invertidos”.


El concepto de índice se puede entender como “esa lista de claves que nos permite llegar rápidamente a los valores”. En vez de recorrer la colección completa en busca de nuestros resultados, recorremos una lista mucho más pequeña, el índice. Si pensamos en el índice de los libros normales, su función es la misma: evitarnos pasar páginas y más páginas buscando un capítulo, si podemos hacerlo echando un vistazo rápido en dos o tres páginas, recorriendo todos los títulos con el dedo.

A la hora de buscar los textos que contengan ciertas palabras, podemos pensar en recorrer todas las palabras de cada documento para ver si está la palabra que buscamos. Esta solución es tremendamente lenta, ya que hay que ir recorriendo toda la colección de textos (que puede ser muy grande), hacer un análisis de cada uno de los documentos para buscar espacios, guiones de separación, etc., y así poder concluir si la palabra buscada está o no está en el texto.

Sin embargo, podemos pensar de otra forma: mantener una lista de todas las palabras existentes en los documentos, anotando en qué documentos aparece cada palabra. A esta lista de palabras, junto con los documentos donde aparece cada una, le llamaremos “índice invertido”. Muchos libros también incluyen este tipo de índice al final de sus páginas, donde se listan todas las palabras relevantes y las páginas donde aparece cada una de estas palabras.

150507.


Un buscador es una herramienta de gran valor en la actualidad, pues existen estudios que demuestran que la mitad de los navegantes sólo emplean éstos para moverse por la red,y no lo hacen a través de links en las propias páginas, un buscador interno, ni accediendo a una url.

Por tanto es de vital importancia, tanto para los usuarios como para aquel que esté interesado en ofrecer un buscador, estudiar el diseño de su interfaz y los principios de HCI sobre éste. De esta forma se conseguirá que resulte una herramienta útil y atractiva...google a la vanguardia como siempre...


yes.gif


¿Quieres ganar dinero escribiendo sobre tus aficiones? - www.Redactores.es



--------------------
user posted image
PMEmail Poster
Top
0 usuario(s) está(n) leyendo esta discusión (0 invitado(s) y 0 usuario(s) anónimo(s))
0 miembro(s):

Topic Options Reply to this topicStart new topicStart Poll

 


ComputerFacil.com © 2006
          Webs Afiliadas - Contacto
Ofertas PCs :: Consultor de Marketing Online :: Foros :: Posicionamiento Web :: Foros de Informatica :: Foros :: eurodipity :: elhacker

eurodipity - eurodipity - eurodipity - eurodipity - eurodipity - eurodipity - eurodipity - eurodipity - eurodipity - eurodipity