Aller au contenu

Vous H


red1

Messages recommandés

Bonjour à tous,

Depuis quelques jours, mon serveur Syno ne se mettait plus en veille.

Pourtant j'étais certain de ne pas avoir activé les options qui empêchent la mise en hybernation des disques, et généralement l'usage de mon Syno est tel qu'il se met régulièrement en veille.

J'ai donc réactivé le webanalyser et j'ai observé quelques jours :

C'est la BNF (Bibliothèque nationale de France) qui est en train d'aspirer tous les sites du domaine .fr ! (je possède un nom de domaine en .fr qui pointe sur mon Syno).

L'adresse IP qui passe son temps sur mon serveur est celle de la BNF : 194.199.7.23

Et le user agent est explicite : http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

J'avais pourtant pris soin de mettre à la racine un fichier ROBOTS.TXT au contenu explicite : il semble que le robot de la BNF ne respecte pas la Netiquette.

Là où je suis plus inquiet, c'est que j'ai la désagréable impression qu'une bonne partie des photos que je stocke sur mon serveur ont d'ores et déjà été aspirées, alors même qu'elles sont toutes situées dans une section privée avec accès par mot de passe. Je me demande donc s'il n'y aurait pas une faille de sécurité.

Lien vers le commentaire
Partager sur d’autres sites

La solution la plus directe est de contacter la BNF pour leur signaler que tu ne veux pas que ton site soit indexé par leur robot.

Perso, sur le site hébergé sur mon Syno, la page d'accueil est une page vide. Les mini-sites que j'héberge sont donc réservés aux personnes qui en connaissent l'adresse.

Lien vers le commentaire
Partager sur d’autres sites

Cette opération est réalisée dans le cadre du dépôt légal de l'Internet, régi par le Code du patrimoine (art. L131-1 à L133-1 et R131-1 à R133-1) depuis la parution de la loi n° 2006-961 du 1er août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information (DADVSI). Le dépôt légal constitue l’un des principaux modes d’enrichissement des collections patrimoniales de la BnF.

Bienvenue dans ma liste noire.

Source : http://www.bnf.fr/fr/outils/a.dl_web_capture_robot.html

Lien vers le commentaire
Partager sur d’autres sites

Dépôt légal c'est le prétexte officiel.

Si demain des ayants droits ou des grands groupe représentants légaux d'ayants droits demandent à comparer une œuvre déposée avec le contenu d'un site que la BNF aura aspiré, que pensez-vous qu'ils feront ?

Chez moi aussi la page index ne contient rien. Et il faut login et mot de passe pour accéder au moindre contenu du Syno. Pourtant, cela ne les a pas empêcher d'aspirer.

Quand à se retourner vers la BNF, j'en connais qui ont essayé ; la CNIL est derrière eux : ils font se qu'ils veulent.

Blacklistée chez moi aussi.

Ce qui est incroyable c'est que cela vienne de chez nous : j'ai régulièrement des sites chinois qui me visitent et qui repartent sans rien faire après avoir consulté le ROBOTS.TXT. Mais la BNF ne s'encombre pas avec ces subtilités.

Lien vers le commentaire
Partager sur d’autres sites

nslookup + alloclist+ nmap

nslookup pour avoir l'adresse IP de bnf.fr (194.199.8.109) et le nom de domaine de 194.199.7.23 (robot4-depot-legal-web.bnf.fr).

alloclist pour avoir le subnet et le nom du propriétaire :


fr.renater

    Renater

    19930901 193.48.0.0/14 ALLOCATED UNSPECIFIED

    19930901 193.52.0.0/16 ALLOCATED UNSPECIFIED

    19930901 193.54.0.0/15 ALLOCATED UNSPECIFIED

    19940525 194.57.0.0/16 ALLOCATED UNSPECIFIED

    19950531 194.167.0.0/16 ALLOCATED UNSPECIFIED

    19951003 194.199.0.0/16 ALLOCATED PA

    19951206 194.214.0.0/16 ALLOCATED PA

    19960312 194.254.0.0/16 ALLOCATED PA

    19960718 195.220.0.0/16 ALLOCATED PA

    19961021 195.221.0.0/16 ALLOCATED PA

    19970204 195.83.0.0/19 ALLOCATED PA

    19970211 195.83.32.0/19 ALLOCATED PA

    19970327 195.83.128.0/17 ALLOCATED PA

    19970327 195.83.64.0/18 ALLOCATED PA

    19971209 195.98.224.0/19 ALLOCATED PA

    20020808 81.194.0.0/16 ALLOCATED PA

    20000321 2001:0660::/29

nmap pour faire une détection partielle (par exemple, robot4-depot-legal-web.bnf.fr n'apparaît pas) :

>nmap -sP 194.199.7-8.*

Nmap scan report for 194.199.7.5

Host is up (0.031s latency).

Nmap scan report for 194.199.7.9

Host is up (0.046s latency).

Nmap scan report for pvb.bnf.fr (194.199.7.13)

Host is up (0.13s latency).

Nmap scan report for 194.199.7.61

Host is up (0.063s latency).

Nmap scan report for 194.199.7.62

Host is up (0.084s latency).

Nmap scan report for reservation.bnf.fr (194.199.8.31)

Host is up (0.078s latency).

Nmap scan report for paiement.bnf.fr (194.199.8.45)

Host is up (0.031s latency).

Nmap scan report for authentification.bnf.fr (194.199.8.53)

Host is up (0.063s latency).

Nmap scan report for marchespublics.bnf.fr (194.199.8.54)

Host is up (0.047s latency).

Nmap scan report for magritte.bnf.fr (194.199.8.57)

Host is up (0.047s latency).

Nmap scan report for forge.bnf.fr (194.199.8.66)

Host is up (0.047s latency).

Nmap scan report for cdip.bnf.fr (194.199.8.77)

Host is up (0.049s latency).

Nmap scan report for teamroom.bnf.fr (194.199.8.112)

Host is up (0.047s latency).

Nmap scan report for depotlegal.bnf.fr (194.199.8.123)

Host is up (0.063s latency).

Nmap scan report for pdamail.bnf.fr (194.199.8.132)

Host is up (0.11s latency).

Nmap scan report for 194.199.8.135

Host is up (0.063s latency).

Nmap scan report for impact.bnf.fr (194.199.8.144)

Host is up (0.084s latency).

Nmap scan report for guides.bnf.fr (194.199.8.145)

Host is up (0.047s latency).

Nmap scan report for espacepersonnel.bnf.fr (194.199.8.148)

Host is up (0.032s latency).

Nmap scan report for assistant.bnf.fr (194.199.8.149)

Host is up (0.034s latency).

Nmap scan report for collecteweb.bnf.fr (194.199.8.153)

Host is up (0.082s latency).

Nmap scan report for bax2.bnf.fr (194.199.8.154)

Host is up (0.062s latency).

Lien vers le commentaire
Partager sur d’autres sites

Un Maître des Syno pourra probablement aider un simple initié :)

Et je ne cris pas au complot : je constate.

Ceci posé, je ne suis surement pas le seul dans ce cas puisqu'un intervenant un peu plus haut, a aussi eu une visite de courtoisie de la part de la BNF.

Contenu du robots.txt :

User-Agent: *

Disallow: /

L'étoile s'adresse à tous les robots, et le disallow sur le / indique que toutes les pages du site sont exclues de l'indexation du robot.

Contenu du .htaccess spécial BNF :

order allow,deny

Deny from 194.199

Deny from bnf.fr

allow from all

Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Effectivement. Beaucoup de données et un petit débit en upload.

Mais moi ce qui me turlupinerait à votre place (et c'est un peu la raison pour laquelle j'ai posté sur un forum Syno plutôt qu'un forum généraliste ; car finalement c'est avant tout une information qui intéresse tous les propriétaires de domaines .fr), c'est comment le Syno a laissé échapper une grosse quantité de photos du répertoire photo, alors que tous les comptes utilisateurs du Syno nécessitent un mot de passe.

La seule solution serait qu'un des utilisateurs qui a tous les droits d'accès (et ils sont très restreints) travaille à la BNF et me fait un petit dans le dos. Mais j'en doute...

Une solution crédible serait que mon mot de passe ait été piraté, mais je n'ai loggé aucun accès à un quelconque compte existant durant la période d'aspiration.

Donc j'aurai plutôt tendance à conclure qu'il y a un trou quelque part dans le système.

Lien vers le commentaire
Partager sur d’autres sites

Il n'y a pas que la BNF à avoir ce genre de démarche apparemment: http://en.wikipedia....ing_initiatives

Mais je reconnais que, ne pas respecter les exclusions spécifiées dans les robots.txt, c'est quand même un peu fort de café

En plus faut aller dans la page anglophone pour le voir explicitement spécifié: http://www.bnf.fr/fr...pecial_eng.html :

"It does not follow exclusion rules specified in the robots.txt protocol."
Lien vers le commentaire
Partager sur d’autres sites

Bonjour,

Comment fait-on pour bloquer ces aspirateurs ?

On les bannit à l'aide du fichier .htaccess.

(pour ma part, je n'ai que des comptes avec accès mot de passe sur le dsm, photostation, audiostation, etc ... j'ai du mal à comprendre comment ils font pour aspirer mes photos persos sans avoir de compte ... !)

Moi aussi, et j'imagine qu'il y a une faille de sécurité.

Pourtant, j'ai bien eu la confirmation de la BNF qu'une partie de mon site avait été collecté. Ci-dessous un extrait du message qu'ils m'ont envoyé :

"La collecte de votre site a débuté le 24 octobre avec pour objectif d’archiver un échantillon représentatif du domaine [...]"

Lien vers le commentaire
Partager sur d’autres sites

  • 2 semaines après...

Rejoindre la conversation

Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.

Invité
Répondre à ce sujet…

×   Collé en tant que texte enrichi.   Coller en tant que texte brut à la place

  Seulement 75 émoticônes maximum sont autorisées.

×   Votre lien a été automatiquement intégré.   Afficher plutôt comme un lien

×   Votre contenu précédent a été rétabli.   Vider l’éditeur

×   Vous ne pouvez pas directement coller des images. Envoyez-les depuis votre ordinateur ou insérez-les depuis une URL.

×
×
  • Créer...

Information importante

Nous avons placé des cookies sur votre appareil pour aider à améliorer ce site. Vous pouvez choisir d’ajuster vos paramètres de cookie, sinon nous supposerons que vous êtes d’accord pour continuer.