XMLサイトマップ
XMLサイトマップとは、検索エンジンに知らせたいサイト内のURLを一覧にしたファイルで、クローラーが内部リンクをたどるだけに頼らず、インデックス登録すべきページを発見し優先順位を付けられるようにするものです。
サイトマップは、どのページが存在するか、そして任意で各ページが最後にいつ更新されたかを検索エンジンに伝えます。Shopifyは/sitemap.xmlに自動でサイトマップを生成し、そこから商品・コレクション・ページ・ブログ記事ごとの子サイトマップへとリンクされます。このURLをGoogle Search Consoleで送信すると、Googleにクロール対象の信頼できる一覧を直接渡すことになり、特に商品数の多いストアや被リンクの少ない開設したばかりのストアでは、新規ページや更新ページの発見が速まる傾向があります。lastmodの日付は多くのストア運営者が思う以上に重要です。これはクローラーがページを再取得する価値があるかを判断するために読む信号なので、実際に更新したページに正確なタイムスタンプを付けることは、再クロールのタイミングに対してストア運営者が持つ数少ない誠実な手段の一つです。
サイトマップにできないことも正確に押さえておく価値があります。URLを記載するのは要求であって命令ではありません。ページのインデックス登録を保証するものではなく、順位を上げるものでもなく、noindexタグやrobots.txtによるブロックを上書きするものでもありません。Googleが内容の薄いページ、重複ページ、価値の低いページと判断すれば、サイトマップに載っていても除外されます。サイトマップは発見の補助であって順位の要因ではなく、後者として扱うと労力を無駄にすることになります。
例えば、木曜の朝に40点の新しい季節商品を公開したShopifyストアを考えます。まだそれらのURLへの被リンクがない状態では、Googleは内部ナビゲーションをクロールして見つけるしかなく、数日かかることもあります。商品の子サイトマップを送信し、各新規URLに最新のlastmod値を付けておけば、クローラーは一度の読み取りで平らな一覧を把握できるため、新しいページがカバレッジレポートに表れるのがかなり早まる傾向があります。後に同じストアが取り扱いを終えた商品ラインを削除した場合、それらのURLは404としてファイルに残り続けるのではなく、サイトマップから外すべきです。404が放置されると、ファイルへの信頼が静かに損なわれていきます。
サイトマップを誠実に保てば、有用なまま使い続けられます。サイトマップには、200ステータスを返す正規かつインデックス可能なURLだけを含めるべきです。リダイレクトや無効なページ、パラメータ違いの重複を含むサイトマップは、クロールバジェットを浪費し信号を薄めます。Search Consoleで一度送信したら、そこのカバレッジとインデックス登録のレポートを、記載したページが実際に拾われているかのフィードバックループとして扱いましょう。
サイトマップはAI検索やAI回答エンジンにとっても重要です。ChatGPT、Perplexity、Google AI Overviewsといったツールは、コンテンツを引用する前にそれを見つけて読むために、依然として基盤となるウェブのインデックスや、自前のクローラーに依存しています。一度も発見されていないページは、回答の中で要約も引用もされません。きれいで最新のサイトマップは、商品ページ、コレクションページ、ガイドページが、これらのシステムが参照するコーパスに含まれる可能性を高めます。それは生成された回答で呼び出されるための静かな前提条件です。サイトマップが回答を書いてくれるわけではありませんが、回答が組み立てられるその場に、あなたのページが確実にいるようにしてくれます。