robots.txtとは
クローラーに対してサイト内ページの巡回を許可・禁止するのかを記述して知らせるファイルです。
クローラーとは
検索エンジンのクローラー(Crawler) とは、ウェブ上のHTMLや画像などを周期的に取得し、自動的にデータベース化するプログラムである。ボット (bot)、スパイダー、ロボットなどとも言われる
要は、検索エンジンが、aアンカーのlinkをたどると、漏れたり、アクセスされたくない管理画面など、クロールされてしまったりするので、それをサイト側で制御する。
そういった行為を、最適化するとか。。SEOとかで言われたりします。
robots.txtは、あくまでも。クローラーへの禁止設定なので、通常の閲覧者のアクセスはできるので、誤解がないように・・・そのあたりは別途htaccessしましょう!
基本形
User-agent: *
Disallow:
Sitemap: https://あなたのドメイン/sitemap.xml
User-agent
クロールを行うボットの種類を指定します。全てのクローラーを指定する場合は*を指定します。
Googlebot,bingbotとかです。。
User-agent : Googlebot Googleのクローラーのみ対象
User-agent : bingbot Bing検索のクローラーのみ対象
User-agent : Mediapartners-Google AdSenseクローラーのみ対象
User-agent : Googlebot-Image Google画像クローラーのみ対象
Disallow
クロールの拒否したいディレクトリなど指定します。
Disallow: /とかするとサイト全体になります。
Allow
クロールの許可したいディレクトリなど指定します。
例
画像は収集させない。。あとは基本形式
User-agent:Googlebot-Image
Disallow:/img/
User-agent:*
Disallow:
Sitemap:https://あなたのドメイン/sitemap.xml
テストサイトなどクロールしなくない場合。。
User-Agent: *
Disallow: /
Wordpressの基本形
User-agent: *
Disallow: /wp/wp-admin/
Allow: /wp/wp-admin/admin-ajax.php
Sitemap:https://あなたのドメイン/sitemap.xml
Movable Typeの基本形
User-agent: *
Disallow: /mt/
Sitemap:https://あなたのドメイン/sitemap.xml
アップロード場所
ウェブサイトのルートへ配置します。
https://あなたのドメイン/robots.txt
https://あなたのドメイン/sitemap.xml
SEO効果について
基本、サーチコンソールの"URL検査"で問題ないのですが・・
Lighthouseとかチェックすると指摘されたりします。
基本的には、ブロック・拒否したいものがある場合、使用したりします。
あとは、新しいものを先にクロールしたいなど、最適化では有効かと。。
SEO効果については、劇的に変化するわけではないと思いますが。。Lighthouseとはぶつぶついわれると・・点数減るし....
robots.txtで指定すると、再クロールの時間がかかるので、お急ぎは、サーチコンソールの"URL検査"がおすすめです・・
sitemap.xmlを作る。。
wordpress,Movable TypeとかCMS系は、プラグイン、もしくは、自作することで記事更新と同時に生成できますが・・
静的の場合、外部システムのサイトマップ自動生成ツールがあるので、そちらを利用するとか、ページが増えると都度更新しないと・・・
例 サイトマップ自動生成ツール
https://www.xml-sitemaps.com/
さいごに
個人的メモです。