Recherche d'information et veille sur Internet
les services de CyberVigie le magazine de CyberVigie téléchargement
information économique et communiqués de presse en région rhône-alpes

RECHERCHER DES FICHIERS PDF | 07-02-2001

La prolifération des publications sur le web et leur pillage systématique a amené les éditeurs (sociétés, étudiants, organisations...) à protéger leur travail. Un moyen fréquent est de publier ses documents au format PDF d'Adobe. Grâce à ce format, les études, thèses, normes, rapports, ne sont pas déformés ou pillés intégralement.

Cette protection a eu pour effet de rendre ces documents invisibles. En effet les moteurs de recherche classiques ne prennent pas en compte les documents Acrobat. Et ceux-ci, contrairement à de nombreux document html, contiennent des informations à valeur ajoutée, suffisamment pour que l'auteur prenne le soin de les protéger !

Ainsi cette masse d'information se fondait à ce que l'on appelle le "web invisible"("deep web"), hors de portée de nos recherches les plus fouillées. Aujourd'hui, des outils permettent d'exploiter en partie ces documents.

searchpdf.adobe.com

La première initiative d'indexation des documents PDF provient de la société Adobe, créatrice de ce format de document.
- http://searchpdf.adobe.com : un moteur de recherche spécialisé sur ce type de documents invisibles.
A la requête initiée par l'utilisateur, le moteur propose un liste de documents, ainsi qu'un résumé du contenu, puis le document en question s'il est pertinent. Une fonction "more like this" est également proposée.

Google rend le web visible.

Google.com permet de rechercher ces documents et de les distinguer des fichiers html classiques. Le célébre moteur de recherche annonce avoir indexé 13 millions de documents Pdf sur le web.

Comment chercher ces documents ?
A n'importe quelle requête le moteur peut apporter un document PDF, cependant si vous cherchez un document PDF en particulier, ajoutez "pdf" à votre requête. Les documents PDF proposés en réponse à la requête de l'utilisateur sont spécifiés par un lien bleu [pdf]. Au-delà de cette initiative, Google a pris le soin d'ajouter une fonctionalité pour visualiser le texte du PDF sans Acrobat Reader. Ainsi nul besoin de lancer Acrobat Reader, et de perdre du temps et des ressources. Le contenu apparait sous forme de fichier html.

En voulant diffuser largement ce type de ressources et en indexant le contenu de ces documents Google fait tomber la protection du document ! En effet, la fonction "texte" fournit le contenu du document dans une version sans protection !!! Et le web devint visible... ou presque.

Jean François Longy | CyberCité
 
29 articles disponibles


INNOVATION CONCENTRATION PAUVRETE DU WEB
2002-04-08 - Jean François Longy

RECHERCHE SIREN SIRET NAF SUR INTERNET
4/02/02 - JFL

COMMENT DETECTER LE PLAGIAT SUR LE NET ?
3/12/01 - Jean François Longy

GOOGLE REVELATEUR D'INCONSCIENCES
8/11/01 - Jean François Longy

RESSOURCES JURIDIQUES EN LIGNE
11-10-01 - Jean François Longy

RECHERCHE BREVETS EN LIGNE
28/09/01 - Jean François Longy

RECHERCHE ETUDES STRATEGIQUES ...
05/09/01 - Jean François Longy

RECHERCHE IMAGE AVEC ... PICSEARCH
14/08/01 - Jean François Longy

page 1 - 2 - 3 - 4
 
  Agence de référencement - Référencement mobile - Stratégie référencement - Diffusion communiques de presse