red1 Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 Bonjour à tous, Depuis quelques jours, mon serveur Syno ne se mettait plus en veille. Pourtant j'étais certain de ne pas avoir activé les options qui empêchent la mise en hybernation des disques, et généralement l'usage de mon Syno est tel qu'il se met régulièrement en veille. J'ai donc réactivé le webanalyser et j'ai observé quelques jours : C'est la BNF (Bibliothèque nationale de France) qui est en train d'aspirer tous les sites du domaine .fr ! (je possède un nom de domaine en .fr qui pointe sur mon Syno). L'adresse IP qui passe son temps sur mon serveur est celle de la BNF : 194.199.7.23 Et le user agent est explicite : http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html J'avais pourtant pris soin de mettre à la racine un fichier ROBOTS.TXT au contenu explicite : il semble que le robot de la BNF ne respecte pas la Netiquette. Là où je suis plus inquiet, c'est que j'ai la désagréable impression qu'une bonne partie des photos que je stocke sur mon serveur ont d'ores et déjà été aspirées, alors même qu'elles sont toutes situées dans une section privée avec accès par mot de passe. Je me demande donc s'il n'y aurait pas une faille de sécurité. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
psuken Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 La solution la plus directe est de contacter la BNF pour leur signaler que tu ne veux pas que ton site soit indexé par leur robot. Perso, sur le site hébergé sur mon Syno, la page d'accueil est une page vide. Les mini-sites que j'héberge sont donc réservés aux personnes qui en connaissent l'adresse. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Brunchto Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 C'est l'indexation des sites Web .fr pour le dépôt légal. http://www.bnf.fr/fr/professionnels/depot_legal/a.dl_sites_web_mod.html Il est passé chez moi aussi 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
PiwiLAbruti Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 Cette opération est réalisée dans le cadre du dépôt légal de l'Internet, régi par le Code du patrimoine (art. L131-1 à L133-1 et R131-1 à R133-1) depuis la parution de la loi n° 2006-961 du 1er août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information (DADVSI). Le dépôt légal constitue l’un des principaux modes d’enrichissement des collections patrimoniales de la BnF. Bienvenue dans ma liste noire. Source : http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
red1 Posté(e) le 26 octobre 2012 Auteur Partager Posté(e) le 26 octobre 2012 Dépôt légal c'est le prétexte officiel. Si demain des ayants droits ou des grands groupe représentants légaux d'ayants droits demandent à comparer une œuvre déposée avec le contenu d'un site que la BNF aura aspiré, que pensez-vous qu'ils feront ? Chez moi aussi la page index ne contient rien. Et il faut login et mot de passe pour accéder au moindre contenu du Syno. Pourtant, cela ne les a pas empêcher d'aspirer. Quand à se retourner vers la BNF, j'en connais qui ont essayé ; la CNIL est derrière eux : ils font se qu'ils veulent. Blacklistée chez moi aussi. Ce qui est incroyable c'est que cela vienne de chez nous : j'ai régulièrement des sites chinois qui me visitent et qui repartent sans rien faire après avoir consulté le ROBOTS.TXT. Mais la BNF ne s'encombre pas avec ces subtilités. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
psuken Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 (modifié) Comment l'avez vous bloquée ? Vous avez l'IP range utilisé ? [Edit] Je serai curieux de voir vos fichiers robots.txt et de comprendre pourquoi le bot de la BNF outrepasse les consignes... Modifié le 26 octobre 2012 par psuken 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Brunchto Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 Ben, si elle y accède sans le Login, mot de passe, je chercherais plutôt où est la faille que de crier au complot. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
PiwiLAbruti Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 nslookup + alloclist+ nmap nslookup pour avoir l'adresse IP de bnf.fr (194.199.8.109) et le nom de domaine de 194.199.7.23 (robot4-depot-legal-web.bnf.fr). alloclist pour avoir le subnet et le nom du propriétaire : fr.renater Renater 19930901 193.48.0.0/14 ALLOCATED UNSPECIFIED 19930901 193.52.0.0/16 ALLOCATED UNSPECIFIED 19930901 193.54.0.0/15 ALLOCATED UNSPECIFIED 19940525 194.57.0.0/16 ALLOCATED UNSPECIFIED 19950531 194.167.0.0/16 ALLOCATED UNSPECIFIED 19951003 194.199.0.0/16 ALLOCATED PA 19951206 194.214.0.0/16 ALLOCATED PA 19960312 194.254.0.0/16 ALLOCATED PA 19960718 195.220.0.0/16 ALLOCATED PA 19961021 195.221.0.0/16 ALLOCATED PA 19970204 195.83.0.0/19 ALLOCATED PA 19970211 195.83.32.0/19 ALLOCATED PA 19970327 195.83.128.0/17 ALLOCATED PA 19970327 195.83.64.0/18 ALLOCATED PA 19971209 195.98.224.0/19 ALLOCATED PA 20020808 81.194.0.0/16 ALLOCATED PA 20000321 2001:0660::/29 nmap pour faire une détection partielle (par exemple, robot4-depot-legal-web.bnf.fr n'apparaît pas) : >nmap -sP 194.199.7-8.* Nmap scan report for 194.199.7.5 Host is up (0.031s latency). Nmap scan report for 194.199.7.9 Host is up (0.046s latency). Nmap scan report for pvb.bnf.fr (194.199.7.13) Host is up (0.13s latency). Nmap scan report for 194.199.7.61 Host is up (0.063s latency). Nmap scan report for 194.199.7.62 Host is up (0.084s latency). Nmap scan report for reservation.bnf.fr (194.199.8.31) Host is up (0.078s latency). Nmap scan report for paiement.bnf.fr (194.199.8.45) Host is up (0.031s latency). Nmap scan report for authentification.bnf.fr (194.199.8.53) Host is up (0.063s latency). Nmap scan report for marchespublics.bnf.fr (194.199.8.54) Host is up (0.047s latency). Nmap scan report for magritte.bnf.fr (194.199.8.57) Host is up (0.047s latency). Nmap scan report for forge.bnf.fr (194.199.8.66) Host is up (0.047s latency). Nmap scan report for cdip.bnf.fr (194.199.8.77) Host is up (0.049s latency). Nmap scan report for teamroom.bnf.fr (194.199.8.112) Host is up (0.047s latency). Nmap scan report for depotlegal.bnf.fr (194.199.8.123) Host is up (0.063s latency). Nmap scan report for pdamail.bnf.fr (194.199.8.132) Host is up (0.11s latency). Nmap scan report for 194.199.8.135 Host is up (0.063s latency). Nmap scan report for impact.bnf.fr (194.199.8.144) Host is up (0.084s latency). Nmap scan report for guides.bnf.fr (194.199.8.145) Host is up (0.047s latency). Nmap scan report for espacepersonnel.bnf.fr (194.199.8.148) Host is up (0.032s latency). Nmap scan report for assistant.bnf.fr (194.199.8.149) Host is up (0.034s latency). Nmap scan report for collecteweb.bnf.fr (194.199.8.153) Host is up (0.082s latency). Nmap scan report for bax2.bnf.fr (194.199.8.154) Host is up (0.062s latency). 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
red1 Posté(e) le 26 octobre 2012 Auteur Partager Posté(e) le 26 octobre 2012 Un Maître des Syno pourra probablement aider un simple initié Et je ne cris pas au complot : je constate. Ceci posé, je ne suis surement pas le seul dans ce cas puisqu'un intervenant un peu plus haut, a aussi eu une visite de courtoisie de la part de la BNF. Contenu du robots.txt : User-Agent: * Disallow: / L'étoile s'adresse à tous les robots, et le disallow sur le / indique que toutes les pages du site sont exclues de l'indexation du robot. Contenu du .htaccess spécial BNF : order allow,deny Deny from 194.199 Deny from bnf.fr allow from all 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
CoolRaoul Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 Une question me turlupine: comment un robot indexeur qui ne va passer probablement qu'une seule fois sur le site peut empêcher le NAS d'hiberner pendant plusieurs jours? 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
lali Posté(e) le 26 octobre 2012 Partager Posté(e) le 26 octobre 2012 Tout dépend de la taille du site et du débit d'upload 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
red1 Posté(e) le 27 octobre 2012 Auteur Partager Posté(e) le 27 octobre 2012 Bonjour, Effectivement. Beaucoup de données et un petit débit en upload. Mais moi ce qui me turlupinerait à votre place (et c'est un peu la raison pour laquelle j'ai posté sur un forum Syno plutôt qu'un forum généraliste ; car finalement c'est avant tout une information qui intéresse tous les propriétaires de domaines .fr), c'est comment le Syno a laissé échapper une grosse quantité de photos du répertoire photo, alors que tous les comptes utilisateurs du Syno nécessitent un mot de passe. La seule solution serait qu'un des utilisateurs qui a tous les droits d'accès (et ils sont très restreints) travaille à la BNF et me fait un petit dans le dos. Mais j'en doute... Une solution crédible serait que mon mot de passe ait été piraté, mais je n'ai loggé aucun accès à un quelconque compte existant durant la période d'aspiration. Donc j'aurai plutôt tendance à conclure qu'il y a un trou quelque part dans le système. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
CoolRaoul Posté(e) le 27 octobre 2012 Partager Posté(e) le 27 octobre 2012 Il n'y a pas que la BNF à avoir ce genre de démarche apparemment: http://en.wikipedia....ing_initiatives Mais je reconnais que, ne pas respecter les exclusions spécifiées dans les robots.txt, c'est quand même un peu fort de café En plus faut aller dans la page anglophone pour le voir explicitement spécifié: http://www.bnf.fr/fr...pecial_eng.html : "It does not follow exclusion rules specified in the robots.txt protocol." 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
thecyberwarrior Posté(e) le 30 octobre 2012 Partager Posté(e) le 30 octobre 2012 Comment fait-on pour bloquer ces aspirateurs ? (pour ma part, je n'ai que des comptes avec acc 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
CoolRaoul Posté(e) le 30 octobre 2012 Partager Posté(e) le 30 octobre 2012 (pour ma part, je n'ai que des comptes avec accès mot de passe sur le dsm, photostation, audiostation, etc ... j'ai du mal à comprendre comment ils font pour aspirer mes photos persos sans avoir de compte ... !) Backdoor fournie par Synology ? Nan, ... je rigole 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
red1 Posté(e) le 30 octobre 2012 Auteur Partager Posté(e) le 30 octobre 2012 Bonjour, Comment fait-on pour bloquer ces aspirateurs ? On les bannit à l'aide du fichier .htaccess. (pour ma part, je n'ai que des comptes avec accès mot de passe sur le dsm, photostation, audiostation, etc ... j'ai du mal à comprendre comment ils font pour aspirer mes photos persos sans avoir de compte ... !) Moi aussi, et j'imagine qu'il y a une faille de sécurité. Pourtant, j'ai bien eu la confirmation de la BNF qu'une partie de mon site avait été collecté. Ci-dessous un extrait du message qu'ils m'ont envoyé : "La collecte de votre site a débuté le 24 octobre avec pour objectif d’archiver un échantillon représentatif du domaine [...]" 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
psuken Posté(e) le 31 octobre 2012 Partager Posté(e) le 31 octobre 2012 Vu leur comportement, je ne serai pas surpris qu'ils contournent le .htaccess en changeant de domaine ou d'IP range ... 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
sieste68 Posté(e) le 11 novembre 2012 Partager Posté(e) le 11 novembre 2012 Bonjour, comment savoir si la BNF est passée sur votre site ? 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
red1 Posté(e) le 12 novembre 2012 Auteur Partager Posté(e) le 12 novembre 2012 Bonjour, Il faut activer le webanalyser depuis la console DSM et vérifier les user agents. Si dessous ce qui est apparu me concernant : Mozilla/5.0 (compatible; bnf.fr_bot; +http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html) 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Rejoindre la conversation
Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.