Googlebotがクロールするのは15MBまで
皆さんはGoogleが全ての情報を読み込み、精査し、順位を決めていると思ってはいないでしょうか。
Googlebot がクロール対象とするのはコンテンツの最初の 15MB までなのです。
追加されたのは以下の記述です。
Googlebot can crawl the first 15MB of content in an HTML file or supported text-based file. After the first 15MB of the file, Googlebot stops crawling and only considers the first 15MB of content for indexing.
Googlebot は、HTML ファイルもしくはサポートするテキストベースのファイルの最初の 15MB のコンテンツをクロールできます。最初の 15MB を過ぎると Googlebot はクロールを停止し、最初の 15MB のコンテンツをインデックス対象として考慮します。
ファイルサイズが 15MB を超えるような長いページを公開していたとしましょう。
15MB までのコンテンツはクロールの対象です。
しかし、15MB に到達した時で Googlebot はクロールをやめてしまいます。
画像や動画は含まれない
こが大切です。
画像や動画を含むと、ページの総サイズは軽く 15MB を超えてしまいます。
これはまったく問題ありません。
15MB 制限の対象はページ本体です。通常 HTML ファイルです。
HTML の実体はテキストファイル。15MB を超える巨大なHTML ファイルを通常は作成しません。
大変な文字量になるはずです。
ただPDF ファイルや、Word/Excel/PowerPoint といった Microsoft Office 系のドキュメントであれば引っかかるかもしれません。
ただ、このようなコンテンツを検索で発見してほしいという方は多くないかもしれません。
まとめ
Googlebotがクロールするのは15MBまでということを紹介しました。
ここで大事なのは画像や動画はこれに含まれないということです。全ての情報を読み込み、精査しているという訳ではありませんが、HTML内の情報はほぼ全て読み込んでいるとみて、間違いないかもしれません。
こちらについては新しいことが分かり次第、今後も情報を追加していきます。