Minería de textos

Recuperación, acceso y organización de la información

Minería de textos

La minería de textos (text mining) dentro del acceso, recuperación y organización de información es un conjunto de técnicas que permiten extraer información relevante y desconocida de forma automática dentro de grandes volúmenes (habitualmente) de información textual, normalmente en lenguaje natural y no necesariamente estructurada.

La principal diferencia de la minería de textos con la minería de datos (data mining) es que en ésta última la información se obtiene normalmente de bases de datos, en la que la información está estructurada. Por este motivo es más sencilla la extracción de la información de una base de datos, que está pensada para que se pueda tratar su información de manera automática, al contrario a lo que ocurre en la minería de textos.

También es necesaria diferenciarla de lo que en el entorno Web se denomina búsqueda, ya que en una búsqueda en Web se busca información ya conocida, y que se ha puesto por escrito por otras personas.

Tipos de minería de textos web

Dentro del ámbito del acceso, recuperación y organización de información, la minería de textos tiene un campo importante de aplicación que es la Web. Existen diferentes tipos de minería de textos web, la de contenido, la de estructura y la de uso.

Minería web de contenido

Dentro de la Web nos encontramos con gran cantidad de documentos heterogéneos, ya sean hipertexto, documentos de texto, documentos en formato pdf, así como imágenes o vídeos, lo que dificulta su clasificación. La minería de contenido del web trata de extraer información relevante sobre el contenido de la web de manera que pueda ayudar clasificarlo, aumentando la organización de ese contenido, para posteriormente mejorar el acceso y la recuperación de la información en él contenida.

Minería web de estructura

Éste tipo de minería de textos sirve para saber cómo está organizada una web, cómo está estructurada y cómo es la navegación a través de ella.

Minería de uso del web

Este tipo trata de extraer patrones de uso del web por parte de los usuarios. Para ello se utilizan logs de los servidores Web de forma que aplicando minería de textos sobre ellos se pueda extraer información útil.

Este tipo de minería tiene 2 objetivos principales: uno es sacar patrones generales de uso de un sitio web de manera que se pueda reestructurar para que sea más fácil de utilizar y mejore el acceso por parte de los usuarios. El otro uso es obtener perfiles de los distintos tipos de usuarios a través de su comportamiento y navegación, para poder atender de forma más personalizada.

 

 

Página realizada por Héctor Plaza López para la asignatura de Recuperación y acceso a la información

Mineria de textos recuperacion acceso organizacion informacion Icono de conformidad con el Nivel Doble-A, 
	de las Directrices de Accesibilidad para el 
	Contenido Web 1.0 del W3C-WAI Mineria de textos recuperacion acceso organizacion informacion Valid HTML 4.01 Transitional Mineria de textos recuperacion acceso organizacion informacion Valid CSS!