投稿日:2003年03月27日 作成鷹の巣

No.9250 掲示板の投稿が検索エンジンにかからないようにするには?



掲示板の投稿が検索エンジンにかからないようにするには?

No.9250 投稿時間:2003年03月27日(Thu) 14:28 投稿者名:おしん URL:

よくYahooなどの検索サイトで掲示板の投稿が検索されて出てきます。
結構参考になる書込があって助かってはいますけど。
ここへの(鷹の巣さん)投稿は少し試しただけですが検索されていないようです。
そこで質問なのですが、自サイトの掲示板の投稿が各社の検索エンジンに
かからないようにするにはどうすれば良いのでしょうか?
ちなみに、私の掲示板はWEBサイトとは別ドライブのCGIフォルダーになっているので
もしここの投稿が検索されるとなると私は驚いてしまいます。

とにかく物忘れが激しくなったので(年がばれる)各種パスワードなどを
どこからもリンクしない自サイトの掲示板に書き込んでおき、忘れてしまったときに・・・
と考えているのですが、これが検索されてしまうと困ってしまうのです。
検索されるはずはないと思いつつも、検索エンジンの理屈を習知していないので
心配になり質問させて頂いた次第です。


robot.txtというのを置いておけば、ひっかからなくなります。

No.9251 投稿時間:2003年03月27日(Thu) 15:07 投稿者名:上野 URL:http://unn.jp

ロボット系サーチエンジン、ということでしょうか?
それなら、robot.txtというのを置いておけば、ひっかからなくなります。
中身ですが、
User-agent:*
Disallow :/フォルダ名
Disallow :/フォルダ名
.....

という様に、検索に引っかからないようにしたいフォルダを指定してください。


検索エンジンにかからないようにする方法。

No.9252 投稿時間:2003年03月27日(Thu) 16:28 投稿者名:通行人 URL:

> ロボット系サーチエンジン、ということでしょうか?
> それなら、robot.txtというのを置いておけば、ひっかからなくなります。

ファイル名は「robots.txt」です。必ずそのサイトのルートに置きます。

その他、掲示板の出力コードに「name="ROBOTS" content="NOINDEX, NOFOLLOW"」のような属性の META タグを挿入するという方法があります。

また、HTTP リクエストに含まれる User-Agent ヘッダによって判定してしまうという方法もあります。
これについては http://www.math.tohoku.ac.jp/%7Ekuroki/keijiban/Robots.html 等が詳しいです。


訂正。

No.9253 投稿時間:2003年03月27日(Thu) 16:40 投稿者名:上野 URL:http://unn.jp

あ、打ち間違え。
スミマセン。


どこからもリンクしていないファイルも検索対象になるのでしょうか?

No.9255 投稿時間:2003年03月27日(Thu) 16:48 投稿者名:おしん URL:

どうもありがとうございます。手法などは理解できました。

今までの私の勝手な理解ですが、
検索ロボットは基本的にサイトのhtml内にあるリンクをたどっていき、
あくまでもその範囲内でのみ検索対象となっているのだと思っていましたが、
これって間違いですか?
それとも、サイト内のディレクトリ階層などはわかってしまうのでしょうか?
具体的な例として、http://www.mydomain.com = D:\docroot\ だとしたとき、
どこからもリンクしていない d:\docroot\myfolder\secret.txt は、
D:\docroot\ に robots.txt をおいておかないとわかってしまうの?
という疑問です。

それと掲示板の続きですが、掲示板のCGIは E:\cgi-bin\ 以下にあるとしますが、
それもわかってしまうのでしょうか?
まさかいかに検索ロボットいえどもわかりませんよね。
といいつつ、不安なので質問させてもらいます。


検索ロボットはリンクを辿って来るんじゃなかったでしたっけ?

No.9256 投稿時間:2003年03月27日(Thu) 17:09 投稿者名:上野 URL:http://unn.jp

確か、検索ロボットはリンクを辿って来るんじゃなかったでしたっけ?
さすがに、ローカルのドキュメントルートまでは分からないんじゃないでしょうか。


フリーサービスの掲示板への投稿がどうして検索されてしまうのかが疑問。

No.9257 投稿時間:2003年03月27日(Thu) 17:30 投稿者名:おしん URL:

> 確か、検索ロボットはリンクを辿って来るんじゃなかったでしたっけ?
> さすがに、ローカルのドキュメントルートまでは分からないんじゃないでしょうか。
ですよね。 (^_^;;;
実はプロバイダとの契約よりかなり容量があいていたものですから、
サイトのフォルダをリモートディスクにして、
かなり大切なデータもそこに保管していました。(もうやめましたが)
自サイトのCGIなどはフォルダを別にしておけば問題ないと思っていましたが、
フリーサービスの掲示板への投稿がどうして検索されてしまうのか、
そのメカニズムが今ひとつわからないもので心配になったのです。
あれっ? でも、CGIのあるフォルダって、結局はサイトからリンク
されているわけだから、ドライブがどうのこうのの問題ではないですね。
(前の投稿、少し恥ずかしい)
CGIからリンクをたどっていけば、やはり所在はわかってしまうのかな?
やはり、robots.txtは作っておいた方がいいですね。


robots.txtは、逆に考えるとフォルダの配置を教えている。

No.9258 投稿時間:2003年03月27日(Thu) 17:39 投稿者名:おしん URL:

robots.txt って逆に考えると「こういうフォルダがありますよ」って
教えてあげるわけですからやはりよくありませんね。(私の用途の場合)
結局は、サイトのルートのどのhtmlなどからもリンクしないフォルダに
「私だけの掲示板」へリンクするhtmlをおいておくのが一番間違いないのかな。

これで絶対大丈夫ですよね。
とにかくカードのパスワードなども、携帯電話から確認できるようなのを
こしらえているものですから・・・。


ソースにコメント記述で書いておくことですね。

No.9259 投稿時間:2003年03月27日(Thu) 17:53 投稿者名:上野 URL:http://unn.jp

か、もうソースにコメント記述で書いておくことですね。
リンクははらずに<!--index2.html-->と記述しておくとか。


細部は間違っていますが、考え方として書きます。

No.9269 投稿時間:2003年03月27日(Thu) 22:06 投稿者名:鷹の巣 URL:http://sakaguch.com/

> robots.txt って逆に考えると「こういうフォルダがありますよ」って
> 教えてあげるわけですからやはりよくありませんね。(私の用途の場合)

サイトマップ等のhtmlファイルからリンクされていないディレクトリは、ご指摘通り
クロール禁止目的でrobots.txtに書いてはいけません。

> 結局は、サイトのルートのどのhtmlなどからもリンクしないフォルダに
> 「私だけの掲示板」へリンクするhtmlをおいておくのが一番間違いないのかな。

人に見られても良いが、クローラ(ロボット検索)に見られては困る場合、私は以下の様にしています。
http://sakaguch.com/cgi/calen/login.cgi

> これで絶対大丈夫ですよね。
> とにかくカードのパスワードなども、携帯電話から確認できるようなのを
> こしらえているものですから・・・。

以下の内容は、細部は間違っていますが、考え方として書きます。
1.WWWサーバーのドキュメントルート(URIルート)以下のデータは、全て外部から見ることが出来ると考えて下さい。
2.WWWサーバーでBasic認証を行なっていても、その内容を見る方法はあると考えて下さい。
3.CGIが動作していて、xxxx.cgiというファイルであってもそのソースリストに書かれているパスワードなどの内容も
外部から見る方法はあると考えて下さい。

カードのパスワードなどは、カード自体に書いておく方が、まだ安全です。
# お薦めしている訳ではありません。


alexa に注意してください。

No.9271 投稿時間:2003年03月27日(Thu) 22:52 投稿者名:帯鯖 URL:

帯鯖@名古屋です。

googlebot は、リンクを辿ってデータベース化するタイプですが、alexa 系では、ブラウザに仕込まれた alexa プログラムが、ブラウジングを勝手に収集、データベースへ送信することにより、反映させます。要注意です。

# Google 系以外の検索エンジンは、ほぼ alexa だと思ってください。

alexa を削除していないマシンからアクセスすれば、1度のアクセスでロボットが走り、データベース化される可能性があります。
どこからもリンクしていない public_html/secret.cgi であれ、ピンポイントに収集されます。
また、googlebot に収集されてしまったら、キャッシュの問題もありますし。

alexa について
http://ra-map.hp.infoseek.co.jp/web01.html
http://member.nifty.ne.jp/Js_KENJI/pc/ad-aware/alexa.htm

CGI などで分岐を仕掛ければ、安全性は高まると思いますが、
/secret.cgi?mode=admin&passwd=1234 のように引数を含む URL であれば、収集される可能性はあります。


難しいところですね。やはり、大切なデータは、物理的な保存が安全ではないでしょうか?答えになっていませんが…。


計画を変更します

No.9282 投稿時間:2003年03月28日(Fri) 12:30 投稿者名:おしん URL:

みなさん色々とありがとうございました。ここはずいぶん勉強になりますね。
フリーの掲示板で間に合わせたかったのでCGIを考えましたが、
JAVAサーブレットで簡易掲示板を作成することに計画を変更します。

Alexaは削除しました。
こんなのがいたとは不勉強でしたが、これって標準でインストールされる
いわばスパイソフトですよね。
マイクロソフトに抗議する人はいないのかなぁ。
私は腹が立ちましたよ。


|目次|掲示板|過去ログ目次|▲頁先頭|