robots.txtって?

らら
らら

robots.txtとは

クローラーに対してサイト内ページの巡回を許可・禁止するのかを記述して知らせるファイルです。

クローラーとは

検索エンジンのクローラー(Crawler) とは、ウェブ上のHTMLや画像などを周期的に取得し、自動的にデータベース化するプログラムである。ボット (bot)、スパイダー、ロボットなどとも言われる

要は、検索エンジンが、aアンカーのlinkをたどると、漏れたり、アクセスされたくない管理画面など、クロールされてしまったりするので、それをサイト側で制御する。

そういった行為を、最適化するとか。。SEOとかで言われたりします。

robots.txtは、あくまでも。クローラーへの禁止設定なので、通常の閲覧者のアクセスはできるので、誤解がないように・・・そのあたりは別途htaccessしましょう!

基本形


User-agent: *
Disallow:
Sitemap: https://あなたのドメイン/sitemap.xml

User-agent

クロールを行うボットの種類を指定します。全てのクローラーを指定する場合は*を指定します。

Googlebot,bingbotとかです。。

User-agent : Googlebot Googleのクローラーのみ対象

User-agent : bingbot Bing検索のクローラーのみ対象

User-agent : Mediapartners-Google AdSenseクローラーのみ対象

User-agent : Googlebot-Image Google画像クローラーのみ対象

Disallow

クロールの拒否したいディレクトリなど指定します。

Disallow: /とかするとサイト全体になります。

Allow

クロールの許可したいディレクトリなど指定します。

画像は収集させない。。あとは基本形式


User-agent:Googlebot-Image
Disallow:/img/
User-agent:*
Disallow:
Sitemap:https://あなたのドメイン/sitemap.xml

テストサイトなどクロールしなくない場合。。


User-Agent: *
Disallow: /

Wordpressの基本形


User-agent: *
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
Sitemap:https://あなたのドメイン/sitemap.xml

Movable Typeの基本形


User-agent: *
Disallow: /mt/
Sitemap:https://あなたのドメイン/sitemap.xml

アップロード場所

ウェブサイトのルートへ配置します。


https://あなたのドメイン/robots.txt
https://あなたのドメイン/sitemap.xml

SEO効果について

基本、サーチコンソールの"URL検査"で問題ないのですが・・

Lighthouseとかチェックすると指摘されたりします。

基本的には、ブロック・拒否したいものがある場合、使用したりします。

あとは、新しいものを先にクロールしたいなど、最適化では有効かと。。

SEO効果については、劇的に変化するわけではないと思いますが。。Lighthouseとはぶつぶついわれると・・点数減るし....

robots.txtで指定すると、再クロールの時間がかかるので、お急ぎは、サーチコンソールの"URL検査"がおすすめです・・

sitemap.xmlを作る。。

wordpress,Movable TypeとかCMS系は、プラグイン、もしくは、自作することで記事更新と同時に生成できますが・・

静的の場合、外部システムのサイトマップ自動生成ツールがあるので、そちらを利用するとか、ページが増えると都度更新しないと・・・

例 サイトマップ自動生成ツール

https://www.xml-sitemaps.com/

さいごに

個人的メモです。

関連記事