近期Google的2MB網頁抓取限制:查證結果與完整解析!
最近在Reddit跟Threads以及許多SEO專家,發表Google只抓取2MB網頁的消息,我們進行了一些求證與實作超過限制的網頁會如何,以下可以參考我們的分析。
「Google只抓取2MB的網頁」這個說法基本屬實,但需要重要的限定條件。 2026年2月3日,Google更新了官方文件,明確指出 Googlebot 在為 Google Search 抓取網頁時,僅處理前 2MB的未壓縮HTML; Search Engine Roundtable Google而Google整體爬蟲基礎架構的預設上限仍為 15MB, Google SketchwebPDF檔案則享有 64MB 的額外寬容。 ALM Corp +2Google強調這不是新的行為變化,而是將長期存在的內部限制正式記錄下來。 SEO-Kreativ +2對絕大多數網站而言,這項限制幾乎沒有實際影響——網頁HTML的中位數僅約 33KB, Search Engine Journal遠低於2MB門檻, Spotibo SEO SEO-Kreativ超過2MB的網頁僅佔所有頁面的 0.82%。 Seobility
Google官方文件怎麼說
2026年2月3日,Google對其爬蟲文件進行了重大重組, Spotibo SEO將原本放在 Search Central 的爬蟲資訊拆分為兩層架構。 Search Engine Journal第一層是 Googlebot 專頁(適用於 Google Search),明確載明:
「When crawling for Google Search, Googlebot crawls the first 2MB of a supported file type, and the first 64MB of a PDF file... The file size limit is applied on the uncompressed data.」 Search Engine Roundtable Google
第二層是通用爬蟲概覽頁面,說明 Google 所有爬蟲與擷取器的預設上限為 15MB。 Search Engine Journal +2值得注意的是,Google在短短9天內對文件進行了三次修訂。 SEO-Kreativ2月11日的第三版將措辭從確定性的「2MB」軟化為「a Google crawler like Googlebot may have a smaller size limit (for example, 2MB)」——「 Googlefor example」這個用詞讓2MB更像是參考值而非絕對硬限制,儘管實際測試確認截斷確實發生在2MB處。 SEO-Kreativ +2
Google的官方解釋是:這次更新是因為將爬蟲資訊從 Search Central 遷移到獨立的爬蟲基礎架構文件站時,順便更精確地記錄了 Googlebot 自身的限制。 Search Engine Roundtable +2Google Search Advocate John Mueller 在 Bluesky 和 Reddit 上多次澄清:「None of these recently changed, we just wanted to document them in more detail.」( Search Engine Roundtable這些限制最近沒有改變,我們只是想更詳細地記錄它們。) Spotibo SEO Search Engine Roundtable
2MB限制的技術細節與適用範圍
理解這個限制需要掌握幾個關鍵的技術區別。首先,2MB指的是未壓縮的原始HTML檔案大小,不是經由gzip或Brotli壓縮後的傳輸大小。 Keytomic +4一個壓縮後僅500KB的檔案,解壓後若超過2MB,仍會被截斷。 PPC Land +2
其次,這個限制是逐檔計算的。 SeomarketingsgHTML文件有2MB的額度,而頁面引用的每個外部CSS和JavaScript檔案都是獨立抓取的,各自擁有自己的2MB額度。 Browser Media +3透過 標籤引用的圖片由 Googlebot Image 處理,適用不同的限制,不受2MB約束。 Spotibo SEO行內嵌入的Base64圖片、行內CSS和行內JavaScript則會計入HTML的2MB預算。 DebugBear Keytomic
| 檔案類型 | 限制 | 適用爬蟲 |
|---|---|---|
| HTML及支援的文字檔案 | 2MB(未壓縮) | Googlebot(Google Search) |
| 64MB | Googlebot(Google Search) | |
| 外部CSS/JS(每檔) | 2MB(未壓縮) | Googlebot(Google Search) |
| 圖片 | 另有規定 | Googlebot Image |
| 所有檔案類型(預設) | 15MB | Google通用爬蟲 |
達到2MB上限時,Googlebot會立即停止下載,僅將已下載的部分送交索引。 Search Engine Land +2這意味著放在頁面底部的內容——包括頁尾連結、底部的結構化資料(JSON-LD)、以及文末的文字內容——都有被截斷的風險。 CaptainDNS
這是新政策還是早就存在的限制
這不是新的行為變化,而是長期存在的內部限制首次被明確記錄。 Search Engine Journal TechWyse 追溯歷史,Google的爬取大小限制經歷了以下演變:
2022年6月以前,Google從未公開記錄任何爬取大小限制。 Nitropack2021年John Mueller甚至在社群媒體上表示「we don't have a documented limit」(我們沒有記錄的限制)。** Search Engine Roundtable2022年6月28日**,Google首次公開發表部落格文章〈Googlebot and the 15 MB thing〉,記錄了15MB的限制,但當時Mueller就已確認「這個限制不是新的」。 Search Engine Journal
2MB限制的浮出水面源於 Google Search Central 幫助社群中的一個討論串。 DebugBear使用者 Mark van Ments 發現其網站內容被截斷, DebugBearGoogle Search Central 鑽石級產品專家 Dave Smart 與Google團隊確認後, DebugBear一位Google代表回覆:「I've heard back from the team, and indeed it looks like documentation was wrong, and that Googlebot only looks at the first 2 MB of raw html. Documentation is being updated.」 DebugBear 這段話暗示15MB的文件說明其實是不精確的,Googlebot for Search 的實際行為一直就是2MB。
值得一提的是,2024至2025年間的Google核心演算法更新(2024年3月、8月、11月核心更新)均與爬取大小限制無關。2026年2月5日的 Discover Core Update 雖然時間相近,但也是完全不同的議題。 Google
SEO社群的反應與共識
SEO社群對此議題迅速形成了兩個陣營。務實派佔據主流,包括 John Mueller 本人、Dave Smart、Search Engine Journal 的 Roger Montti 等人,一致認為這對絕大多數網站不構成實際問題。Mueller 直白地說:「nobody's going to read 1,000 pages of text (equivalent of 2MB) in search of something that's on page 1,001. If you want to publish a novel, make it a PDF.」(沒有人會讀1,000頁的文字去找第1,001頁的東西。想發表小說的話,用PDF。) Search Engine Roundtable
SEO工具公司 Seobility 分析了4,450萬個頁面,發現僅 0.82% 超過2MB。 SeobilityHTTP Archive 的資料顯示,行動端HTML中位數約 22-33KB,第90百分位也僅 151KB。 Search Engine Roundtable +22MB大約等於200萬個字元,相當於將一本400頁小說塞進單一網頁。 Nikki Pilkington +2
Spotibo 進行了最具價值的實證測試,建立了3MB和16MB的測試頁面並提交Google索引。 Spotibo SEO結果發現3MB頁面的原始碼在約第15,210行被截斷(「Prevention is b」之後直接接上