JustSystems | JUST-CRAWLER

[ Home ] > [ JUST-CRAWLER ]

JUST-CRAWLER

JUST-CRAWLERとは

JUST-CRAWLER は、株式会社ジャストシステムにより開発・運用されているWebクローラの User-Agent 名です。自然言語処理技術を用いた様々なアプリケーションを研究開発する際のデータとして使用するために、Webページのクロールを行っています。 JUST-CRAWLER は、皆さんのWebサーバに無駄な負荷をかけることが無いように、同じWebサーバに連続してアクセスしないように設計されています。我々は、皆さんに迷惑をかけたり、皆さんの権利を侵害することは本意ではありません。JUST-CRAWLER によるクロールをブロックしたい場合は、以下のブロック方法をご確認ください。

JUST-CRAWLER によるクロールのブロック方法

JUST-CRAWLER は、The Robots Exclusion Protocol、及びThe Robots META tagに準拠しています。JUST-CRAWLER によるクロールを希望されない場合は、The Robots Exclusion Protocol 、もしくは The Robots META tag によりブロックして下さい。次回クロール時より、JUST-CRAWLER は robots.txt またはMETAタグにより指示された通りに動作します。

The Robots Exclusion Protocol によるブロック

The Robots Exclusion Protocolによるブロックとは、Webサーバ上のルートディレクトリにrobots.txtというテキストファイルを作成し、アクセスを制御する仕組みです。例えば、あなたのWebページが置いてあるサーバがhttp://www.yourserver.yourdomain/なら、このテキストファイルをhttp://www.yourserver.yourdomain/robots.txtとして保存してください。もし、JUST-CRAWLER によるすべてのコンテンツに対するアクセスを禁止したい場合は、以下のように記載して下さい。

User-agent: JUST-CRAWLER
Disallow: /

robots.txt は、「User-agent: 」と「Disallow: 」という2種類の接頭辞をもつ行から構成されます。「User-agent: 」の後にアクセス制御を行いたいクローラ名を、「Disallow: 」の後にアクセスを禁止したいパスを記入して下さい。

The Robots META tag によるブロック

サーバを管理する権限がなく robots.txt を置けない場合は、The Robots META tagによる方法でもブロックできます。The Robots META tag によるブロックとは、HTMLファイル中に埋め込まれるMETAタグによりクローラの動作を制御する仕組みです。JUST-CRAWLER によるアクセスを禁止したいHTMLファイルには、例えば、ヘッダに以下のタグを追加して下さい。

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

このMETAタグは、クローラがこのWebページをインデックスに登録しないこと、このWebページがリンクしているWebページの分析も行わないことを指定しています。

JUST-CRAWLER についてのご連絡先

本件につきましてご不明な点がございましたら、下記へお問い合せください。

株式会社ジャストシステム：