W whoops.tw
SEO

爬取預算是什麼?7 大優化策略讓 Google 更有效率地抓取你的網站

爬取預算(Crawl Budget)是搜尋引擎在一段時間內,願意分配給你網站進行抓取的頁面數量上限,由「爬取頻率限制」與「爬取需求」兩個因素動態決定,並非一個可以調高的固定數值。根…

爬取預算:Google 對網站的動態信任分級

爬取預算(Crawl Budget)是搜尋引擎在一段時間內,願意分配給你網站進行抓取的頁面數量上限,由「爬取頻率限制」與「爬取需求」兩個因素動態決定,並非一個可以調高的固定數值。根據 Google Search Central 官方對 Crawl Budget 的說明,這個上限會跟著網站的健康度與價值持續浮動。對絕大多數網站來說,這個數字 Google 早就給得夠多,真正會出問題的是預算被無效頁面吃掉。

重點先看:爬取預算反映的是 Googlebot 對網站健康度與價值的動態信任分級,本身並非業績指標;GSC 檢索統計資料記錄近 90 天爬取行為(見 Google Search Console 說明文件),多數網站該做的是清掉無效頁面,把心力放在這件事上才會看到效果。

很多站長第一次聽到「爬取預算」這個詞,直覺反應是「那我要怎麼把它調高」。這個直覺本身就是搞錯方向。Google 從來沒有提供任何一個開關、按鈕或設定值,讓你把爬取預算往上拉。它不是儲值卡,不是會員等級,更不是你衝內容產量就能換到的積分。它更接近一份 Google 對你網站的信任評估報告,會跟著網站的速度、穩定性、內容價值、更新頻率持續浮動。想知道完整脈絡,可以先讀過 技術性 SEO 完整指南,把爬取放進整體技術架構裡看。

Googlebot 抓取網站的四步流程

Google 官方把 Googlebot 的抓取流程拆成四個步驟:發現網址、排程選擇、取得內容、準備進入索引(Google Search Central《How Search Works》將這條鏈路拆解得最完整)。想從源頭看懂這條鏈路,先讀過 Google 搜尋引擎運作原理 會更踏實。這四步走完,頁面才真正有機會出現在搜尋結果,而爬取預算主要影響的是第二步「排程選擇」之後到底能抓多少頁。主機回應快,Google 就把頻率往上調;常出現伺服器錯誤,Google 反而會主動放慢,避免把你的站抓掛。

光有飛快的主機還不夠。就算伺服器跑得再順,如果內容本身沒人看、品質差,Google 也不會把資源浪費在這些頁面上,這正是 Google Search Central 對 Crawl Demand 的核心說明。實務上常看到一種情況:站長砸預算升級主機、導入 CDN 網站加速,GSC 的爬取量卻沒有跟著跳上來,瓶頸其實出在內容價值,主機再快也無法單獨解決。

爬取預算由兩件事共同決定

Google 官方文件講得很清楚,爬取預算由兩個變數動態組合而成,並非單一數字。理解這兩個變數,你才會明白為什麼「衝高爬取預算」這件事根本無從下手。

組成要素決定因素Google 的調整邏輯
爬取頻率限制(Crawl Rate Limit)伺服器耐受力、回應速度、錯誤率主機穩定快速就調高;常回 5XX 就放慢
爬取需求(Crawl Demand)頁面價值、熱門度、外部連結、更新頻率內容有價值、有人看才值得常來抓

把這張表記下來,後面所有優化動作都能對應回這兩欄。想做的是提升主機回應,就去碰 網站速度優化全攻略;想做的是提升內容價值,就把資源投在值得收錄的頁面上,其中 外部連結如何帶動爬取需求 是爬取需求那一欄的關鍵變數。兩條路徑截然不同,別混為一談。

進一步把它寫成一句話更好記:爬取預算 ≈ 爬取頻率限制 × 爬取需求。頻率限制由你的主機承受度決定(回應慢、Google 就自動降速保護伺服器),爬取需求則由頁面價值、更新頻率與外部連結強度決定。兩者相乘,才是 Google 每天願意花多少資源抓你的網站。記住這個乘法關係,就會明白「衝高預算」根本無從下手,你能動的只有兩個因數,而多數網站該做的,是把有限的乘積導向值得收錄的頁面。

而「外部連結」這個爬取需求的關鍵變數,現實裡其實極度稀缺:Backlinko 分析約 1,180 萬筆 Google 搜尋結果發現,大約 95% 的頁面完全沒有任何反向連結 [來源:Backlinko〈Search Engine Ranking: We Analyzed 11.8 Million Google Search Results〉 https://backlinko.com/search-engine-ranking 2025-04-14]。缺乏外部連結的頁面,往往同時失去排名競爭力與爬取需求,自然也不易排上 Google 的抓取順位;這也說明了為什麼把預算導向有價值、有人連結的頁面,會比單純堆疊頁面數量更有效。

爬取與索引是兩回事

網頁被爬蟲抓到了,不保證會出現在搜尋結果。爬取(Crawl)只是 Googlebot 讀取頁面內容,索引(Index)才是決定要不要收錄,中間還隔著一段評估內容價值的過程。要確認自己的頁面到底進沒進索引庫,則看 如何確認網頁被 Google 索引。這個觀念沒釐清,後面的診斷邏輯會全錯。

很多人會把這兩件事混為一談,誤以為「網頁有被爬蟲抓到,就一定會出現在搜尋結果」。實際上,搜尋引擎運作分成三個階段:爬蟲看到內容、索引決定收錄與否、排名在收錄後才競爭。索引與排名之間還有一道檢索關卡,索引之後、排名之前的檢索階段 值得單獨理解,它決定了 Google 能不能在毫秒內調出對應內容;而搜尋結果的樣貌如今也多了 AI 摘要這一層,可以對照 Google AI Overviews 摘要運作 來看。如果你的網頁一直沒出現在 Google,第一步該確認的是 Google 到底有沒有來爬過;如果爬過了卻沒索引,那通常是內容品質或技術設定的問題,預算本身多半是充足的。

  • 沒被爬過:通常是網站結構太深、內部連結佈局 SEO 策略沒做好,爬蟲根本走不到那個頁面。
  • 爬過卻被排除:屬於「正常排除」,像 noindex、重複內容、轉址、robots.txt 阻擋,不等於網站出錯。其中 noindex 標記的作用與設定 是最常被誤解的一項,建議先釐清它的真正用途。
  • 已檢索尚未索引:數字偏大時,才比較可能是爬取預算或品質的訊號。

常見的誤解是「提交 Sitemap 就等於會被索引」。Sitemap 的作用只是加速發現,不保證收錄,這跟 Google 網頁收錄查詢方法 是兩回事。Google 收不收錄,終究看的是內容值不值得放進索引庫;想強化這層信任,EEAT 贏得 Google 信任的策略 是更對應的著力點。

哪些網站才真的需要管理爬取預算

頁面數量少的小型網站基本不用擔心爬取預算,Google 通常當天就能完整抓取。真正需要管理的是中大型網站、剛大規模改版的網站,以及內容頻繁更新的時效性平台。判斷的關鍵在於「頁面數量有沒有逼近 Google 願意抓取的上限」,與網站規模大小本身關係有限。

Google 公開說明過,對多數網站來說爬取預算不是瓶頸(Google Search Central 在大型網站爬取預算管理文件中明確表達此觀點)。真正會卡住的,是頁面數量龐大但日抓取量跟不上的網站。換句話說,一個只有兩百篇文章的部落格,去煩惱爬取預算是白費力氣;但一個有十萬個 SKU 的電商、一個每天發上百則快訊的新聞站,就必須認真看待這件事。

把場景拉開來看,會陷入爬取預算泥沼的通常是幾種結構性處境。中大型網站如電商、新聞、招募平台,頁面量龐大但 Google 分配的日抓取量不見得跟得上規模,這也是 WooCommerce 商品頁 SEO 優化 會被反覆強調的原因。剛大規模改版的網站則因大量 301 轉址與新增分類路徑,迫使 Google 重新理解網站結構,過渡期會大量消耗預算。至於即時新聞、限時優惠、股市資訊這類內容頻繁更新的平台,考驗的是能否讓爬蟲在最短時間內抓到新內容,否則時效一過頁面就失去價值。

更深一層看,爬取預算其實是網站 SEO 健康狀況的縮影。網站架構夠不夠清晰,決定了爬蟲能不能順暢找到重要頁面;內容有沒有價值,決定了 Google 願不願意把資源花在你身上。如果你的頁面長期未被收錄、或優化後排名遲遲不動,那就是明顯的警訊。這時與其糾結 提升 Google 排名關鍵原因,不如先回頭檢查網站的爬取健康度。

用 Google Search Console 三工具檢查爬取健康狀態

想實際查看 Google 有沒有好好爬你的網站,打開 Google Search Console,用「網頁索引狀態報表」「檢索統計資料」「網址檢查工具」三個工具搭配,就能在不碰伺服器記錄檔的情況下掌握爬蟲行為與預算使用狀況。如果你對 GSC 還不熟,先看過 Google Search Console 介紹 建立基本概念,再對照 Google Search Console 完整教學 會比較好上手。Google 之外,Bing 的爬蟲同樣會造訪你的網站,Bing Webmaster Tools 安裝設定 完成後,就能同步觀察另一個搜尋引擎的抓取狀況。

這三個工具各有各的用途,混在一起看會混淆。每個工具負責回答的問題不同,看的欄位也不同,得分開來讀才不會把訊號讀錯。

工具位置主要看什麼
網頁索引狀態索引 → 網頁索引多少頁面被收錄、多少被排除及原因
檢索統計資料設定 → 檢索統計資料近 90 天爬取行為,判斷預算使用最直接
網址檢查工具頂端搜尋列單一關鍵頁面深入檢查、要求建立索引

網頁索引狀態:先看哪些頁面被排除

這份報表把頁面狀態分成三大類:錯誤、已排除、未建立索引。錯誤像是 404 找不到頁面、500 伺服器錯誤,這類會直接影響爬取效率,要優先修,處理方法可以參考 404 頁面設計與優化。已排除的狀態則包括 noindex、重複內容、轉址、robots.txt 阻擋,這些大多是 SEO 的正常運作結果,不代表網站出錯。

真正要緊的是「未建立索引」底下的兩個子狀態。已找到尚未建立索引,代表 Google 爬過了但暫時不收,多半是內容品質或重複問題;已檢索尚未建立索引,代表 Google 知道網址存在但還沒進去抓。如果後者數字很大,就比較可能是爬取預算不足的訊號。更多判讀細節可搭配 GSC 五個實戰檢索技巧

檢索統計資料:判斷預算使用最直接的數據

這份報表記錄 Google 近 90 天對你網站的爬取行為,是判斷爬取預算使用狀況最直接的數據來源,依 Google Search Console 官方說明文件的定義。還沒摸熟後台的人,先補上 Search Console 基礎認識 再來讀數字會更順。重點觀察三件事:每日抓取頁數是否穩定、回應載入大小有沒有異常膨脹、主機回應時間是否偏高。健康的網站爬取量不該有劇烈起伏;如果頁面很多但爬取量偏低,就代表有東西在拖累效率。面對一堆原始數字一時抓不到重點,也能搭配 Search Console 自動生成的 AI 摘要報告,讓系統幫你標出值得留意的爬取變化。

實務上還有一個推估框架很好用:把「有效頁面總數」除以「每日平均檢索要求數」,得到的數字大約是 Google 完整爬完一輪需要幾天。要強調這是一般經驗法則,並非 Google 官方公式。舉例來說,一個數百頁的網站、每天被檢索數百次,比值遠低於 1,代表預算綽綽有餘;反過來,若一個上萬頁的網站每天只被檢索幾百次,完整爬一輪要花上數十甚至數百天,就值得正視預算吃緊。此外有兩個訊號比檢索次數更值得盯:主機回應時間若持續偏高,Google 會主動降速保護伺服器、連帶壓低檢索量;主機可用性若經常回 5xx 或逾時,Google 會把這個站判定為不健康,預算自然縮水。這兩項是中小型網站少數真正需要留意的預算相關指標。

把主機回應時間這個訊號再拆細來看,會看到三種典型曲線。第一種是長期穩定、整天維持在合理區間,這代表主機與程式端都能負擔日常流量,Google 也會維持穩定的檢索頻率。第二種是白天尖峰時段明顯飆高、深夜才回穩,這通常代表主機在真人流量與爬蟲流量同時湧入時被打滿,Google 偵測到回應變慢,會自動降低尖峰時段的檢索量,長期下來等於把預算往低峰擠壓,新內容被發現的時間也會往後延。第三種是無規律的突波,今天慢、明天又恢復,這類最棘手,因為它會讓 Google 對這個站的穩定性失去信心,即使單日平均回應時間不差,預算仍可能被壓低。對應的處理方向很明確:穩定型只要維持現狀並持續監控;尖峰型要找出瓶頸是在資料庫查詢、快取命中率還是頻寬,再決定是優化程式、升級主機還是導入 CDN 網站加速;突波型則要先釐清是主機資源不足、還是有特定外掛或排程任務在背景拖累回應。

網址檢查工具:針對單一關鍵頁面深入檢查

這個工具用來針對單一頁面深入檢查,適合分析高轉換頁、重要文章,操作細節可對照 用 GSC 網址檢查工具深入診斷。新文章剛發布或修完 SEO 錯誤需要即時處理時,可以手動點「要求建立索引」讓 Google 優先重抓。但要記得,這只能針對單一頁面應急,無法系統性提升整站預算,把它當萬靈丹是錯的期待。

影響爬取預算的關鍵因素與對應優化策略

會吃掉或牽動爬取預算的變數,歸納下來大致涵蓋伺服器速度與穩定性、未封鎖的無效頁面、內部連結架構、Sitemap 品質、URL 參數、無效連結與轉址鏈,以及內容本身的價值。這些項目之間並非各自獨立,而是彼此牽動:主機回應慢會壓低頻率限制,連帶讓爬蟲走不完複雜的內部連結架構;Sitemap 塞滿無效頁面,又會把本就有限的預算導向不值得收錄的網址。它們共同的處理邏輯都是「刪減與排除」,單純增加頁面數量並不在這套邏輯裡。

伺服器速度與穩定性

Google 在你站上停留的時間是固定的,在同樣時間內,回應速度越快,爬蟲能爬完的頁面就越多,這也是 網頁速度對 SEO 的影響 會被反覆強調的原因。可行動作包括導入 CDN、壓縮圖片、選擇穩定主機。圖片常是最大宗的頻寬殺手,搭配 圖片壓縮工具實測推薦WordPress 圖片優化指南 處理,再開啟 Lazy Loading 延遲載入實作,效果會更顯著。進階還能看 Core Web Vitals 核心指標優化,把體驗指標一起拉起來。

用 robots.txt 封鎖低價值路徑

把預算花在不需要收錄的頁面上,等於排擠了真正重要的內容。該封鎖的包括後台登入頁、測試環境、無窮篩選頁、搜尋結果頁。設定細節可參考 robots.txt 設定與 SEO 影響,避免封錯路徑把重要頁面一起擋掉。

優化內部連結架構

內部連結是爬蟲探索網站的主要方式。重要頁面埋得太深,或根本沒有其他頁面指向它,爬蟲就很難發現。定期修復孤兒頁面,建立首頁到分類到內容的清晰階層。這部分的佈局邏輯,長尾關鍵字佈局策略SEO 友善網站架構規劃 有完整說明。

清理 Sitemap 與處理 URL 參數

Sitemap 像是給 Google 的導覽地圖,但很多網站會把所有頁面全丟進去,反而造成反效果。正確做法是只放希望被索引的頁面,排除 noindex、重複、低品質內容。想先理解 Sitemap 在 SEO 裡的位置,XML Sitemap 對 SEO 的作用 有完整脈絡;入門可讀 網站 Sitemap 入門指南,實作細節看 Sitemap 產生與提交實作。與 Sitemap 互為表裡的是 URL 參數問題,這也是電商最常遇到的狀況:同一件襯衫因為篩選器或追蹤參數,產生 ?color=blue、?source=facebook 等無數個網址,內容卻幾乎相同。處理方法有三:用 canonical 標籤指向正本(搭配 Canonical URL 解決重複內容)、用 robots.txt 封鎖不必要的參數組合、在 GSC 使用路徑清理工具。網址結構本身也要顧,可參考 SEO 網址結構最佳化 與 SEO 網址優化完整指南。背後的根本議題是重複內容,重複內容的辨識與解決 值得當成主題來讀。

修復無效連結與轉址鏈,維持內容品質

爬蟲跟著連結走,走到死路或繞一大圈才到目的地,都是浪費。要先把全站的死鏈與跳轉挖出來,用 Screaming Frog 爬出無效連結 是實務上最直接的做法。拒絕 A 到 B 到 C 到 D 的長距離轉址鏈,這會讓爬蟲消耗多倍預算卻只抓到一個頁面;同時修正 4XX 與 5XX 錯誤,避免爬蟲頻繁遇到伺服器錯誤而認定網站無法負荷。轉址設定可看 301 與 302 轉址教學

與上述技術清理一體兩面的,是內容本身的價值,這也是所有策略裡最根本的一環。Google 會自動減少抓取沒人看、品質差頁面的頻率,這點在 Google Search Central 對 Crawl Demand 的說明中有直接交代。內容農場就是反面教材,短期內頁面數量暴增,長期只會壓低整體評價與預算。技術設定再完美,內容沒價值也救不回來。想避開地雷,可以讀 內容農場對 SEO 的負面影響SEO 優化常見地雷;想用工具系統化檢測網站體質,用 Ahrefs 全面檢測網站體質 提供完整的操作路徑,而內容的 年度內容更新維護節奏 同樣不能放著不管。

把這件事放大到整個網路的尺度會更清楚。在 Ahrefs 分析約 140 億個頁面的大型研究中,96.55% 的頁面從 Google 拿不到任何自然流量 [來源:Ahrefs〈96.55% of Content Gets No Traffic From Google〉 https://ahrefs.com/blog/search-traffic-study/ 2023-12-01]。這群拿不到流量的低價值頁面,正好就是 Google 在爬取需求那一欄會主動降頻、不願浪費預算反覆抓取的對象;與其堆疊頁面數量,更實在的做法是讓每一頁都具備值得被收錄、被點擊的價值。

URL 參數處理決策矩陣:四種情境對應四種做法

前面提到的七個因素裡,URL 參數是電商與大型網站最常卡關、也最容易亂下指令的一項。同一份內容因為追蹤參數、篩選器、排序、分頁而複製出數十個網址,處理方式卻不能一視同仁。究竟該用 canonical、該封鎖、該放任、還是該主動刪除,取決於兩個維度:這組參數會不會改變頁面內容,以及這組網址有沒有外部連結或實際流量。把這兩個維度交叉,就能得到一張四象限的決策矩陣,避免常見的「一律封鎖」或「一律放任」兩種極端。

情境會改變內容?有外部連結/流量?建議做法
排序與分頁參數(?sort=price、?page=2)不會通常無用 robots.txt 封鎖,或以 canonical 指向正本,避免重複收錄
追蹤參數(?source=facebook、?utm=email)不會偶有外部連結用 canonical 指向乾淨網址,保留追蹤用途但不產生重複頁面
篩選器組合(?color=blue&size=m)會(商品集合不同)部分組合有人搜只把有人搜的組合留給索引,其餘用 canonical 或 robots.txt 合併與封鎖
會話 ID、排序快照、除錯參數不會直接在 robots.txt 封鎖,或在程式端移除產生這類網址的邏輯

這張矩陣的核心判斷只有一句:會改變內容且有人搜的參數才值得留在索引裡,其餘都該合併或封鎖。篩選器要不要留,可以用 Bing 關鍵字搜尋量查詢方法 交叉比對出真正有人搜的條件,避免把預算留給沒有實際需求的頁面。會話 ID 與除錯參數這類純技術產物則完全不該進入索引,封鎖後要回頭確認程式是否仍持續生成這類網址,否則封鎖只是治標。

爬取預算自助檢查清單:十二個動作逐項打勾

把前面的觀念整理成一份可執行的清單,逐項檢查就能涵蓋大多數的爬取預算問題。這份清單按「先診斷、再清理、最後驗證」的順序編排,建議從上往下做,避免在還沒確認問題前就動手封鎖路徑。

診斷階段:先確認問題真的存在

  • 開啟 GSC 檢索統計資料,檢視近 90 天每日抓取頁數是否穩定、有無明顯下滑。
  • 比對「有效頁面總數」與「每日平均檢索要求數」,估算 Google 完整爬一輪需要幾天,比值越大越值得警覺。
  • 查看網頁索引狀態報表,記下「已檢索尚未建立索引」與「已找到尚未建立索引」兩個子狀態的數量。
  • 確認主機回應時間與可用性,是否長期偏高或頻繁回 5xx。

清理階段:把無效頁面從路徑上移除

  • Screaming Frog 爬出全站死鏈與長距離轉址鏈,逐一修正或合併。
  • 清理 Sitemap,移除 noindex、重複、低品質與已停售商品頁。
  • 依前一段的決策矩陣,處理排序、分頁、追蹤、篩選、會話 ID 五類參數。
  • 用 robots.txt 封鎖後台、測試環境、無窮篩選頁與搜尋結果頁,封鎖前確認路徑內沒有要收錄的頁面。
  • 修復孤兒頁面,把重要頁面控制在距首頁 3 到 4 層以內。

驗證階段:確認改善真的生效

  • 回頭看 GSC 檢索統計資料,確認抓取量回穩、主機回應時間下降。
  • 追蹤重要頁面的索引狀態,確認「已檢索尚未建立索引」數量是否縮減。
  • 對單一關鍵頁面用網址檢查工具手動要求重抓,觀察收錄速度是否變快。

這份清單真正的價值在於建立可重複執行的節奏,一次做完並非目標。中大型網站建議每季跑一次完整清單,改版前後或導入新分類時更要即時檢查,避免技術債在不知不覺中吃掉預算。

一個美肌保養電商的清理實錄

在一個美肌保養電商專案中,重新檢視網站架構、清理大量無意義轉址與重複頁面、把爬蟲導向核心產品頁後,數個月內自然流量顯著成長,季節檔期活動頁成為穩定的流量入口。需要強調的是,這是單一專案的結果,不保證所有網站複製可得同等增幅。

問題出在哪?這個品牌在季節檔期活動頁上投入大量心力,流量卻一直不如預期。接手後檢視網站架構,發現過多無意義轉址與重複頁面把爬取預算吃光,導致核心產品頁與新活動頁根本排不上 Google 的抓取順位。改善動作很直接:把爬蟲導向核心產品頁、依使用者痛點優化內容、提升活動頁讀取速度、降低跳出率。

結果是數個月內自然流量明顯成長,部分關鍵字穩穩出現在 Google 搜尋結果首頁,每當品牌推出新的季節檔期活動,活動頁也成為穩定的流量入口。回頭看這個專案,問題從來不是預算不夠,而是資源被導去抓一堆沒人要看的重複頁面。技術清理、內容調整、速度優化缺一不可,單做任一項效果都有限。如果你也在處理類似問題,關鍵字蠶食修復策略網站流量下滑恢復方法 會有幫助。

電商網站的爬取預算管理:把預算殺手一個個清掉

電商網站是爬取預算問題最集中的場域。商品多、分類深、篩選器組合爆炸,每一項都會放大無效頁面的數量。最典型的三種預算殺手分別是無窮篩選頁、分頁與排序參數、停售商品頁:無窮篩選頁讓同一件商品因顏色、尺寸、價格排列組合產生數十個幾乎相同的網址,正解是用 canonical 指向正本、用 robots.txt 封鎖不必要組合;?page=2、?sort=price 這類分頁與排序參數頁多數不必被收錄,可封鎖或合併;長期缺貨的停售商品頁則要嘛更新庫存狀態,要嘛用 410 永久移除,別讓爬蟲反覆造訪空頁。把這些無效路徑清掉、重複頁面合併、死路修好,剩下的預算自然會流向值得收錄的內容,這也是為什麼 站內 SEO 優化完整攻略SEO 搜尋引擎優化完整指南 都會把網站結構清理列為基本功。

以這類中大規模電商為例,常見的狀況是:一個商品總數約落在 5,000 到 50,000 件之間的站,因為顏色、尺寸、排序、分頁等篩選器排列組合,實際可被爬蟲造訪的網址數量往往膨脹到商品數的約 5 到 20 倍,也就是數萬到數十萬個近乎重複的頁面。依這類站的典型表現幅度,GSC 檢索統計資料裡「已檢索尚未建立索引」的數量經常佔整體檢索網址的約三到五成,每日平均檢索要求數卻只夠在數十到上百天內才完整走完一輪。處理方向應是先把無窮篩選頁與排序參數用 canonical 合併、用 robots.txt 封鎖會話 ID 與除錯參數、把停售商品頁改為 410,讓有效網址佔比回升後,新商品頁從被發現到進入索引的等待時間通常會從數週縮短到數天。要誠實說明的限制是:上述幅度是依同類網站的公開經驗區間推估,並非任何單一實測報告的精確數字,每個站的商品結構、主機規格與既有技術債差異很大,實際改善幅度可能明顯偏離這個區間,甚至出現清理後短期內檢索量波動的情形,這時判斷依據應回到「重要頁面的索引狀態是否往前推進」這項指標,檢索總量的高低僅供參考。

爬蟲爬不到頁面的常見原因與 JavaScript 渲染陷阱

有時候問題不在預算被浪費,而在爬蟲根本爬不到頁面。會造成這種情況的原因大致涵蓋頁面需要登入或付費權限、robots.txt 設定錯誤把該爬的封掉、網站結構太深讓爬蟲無路可走、伺服器回應太慢拖累抓取效率,以及 JavaScript 渲染的內容爬蟲難以解析。逐一排查這幾項,能解決絕大多數「爬不到」的疑難。

需要登入、付費或會員才能看的頁面,爬蟲被擋在門外,本來就不該期待被收錄。robots.txt 設定錯了,則會連該被收錄的重要頁面一起擋掉,這是最常見的自傷型錯誤。設定前先讀過 robots.txt 的正確寫法,並搞懂 robots.txt 與 noindex 的差異,兩者用法完全不同。結構問題則靠 SEO 友善網站架構規劃 把重要頁面控制在距首頁 3 到 4 層以內。

特別值得單獨講的是 JavaScript 渲染問題。內容若靠 JavaScript 才載入,爬蟲需要二次處理,舊版處理鏈可能漏抓關鍵內容。Google 的渲染能力近年持續進步,但相較於純 HTML,JS 頁面對爬蟲仍較吃力。穩妥做法是採用 SSR(伺服器端渲染)或預渲染,把關鍵內容放進初始 HTML,讓爬蟲第一次抓取就讀得到。完整討論可參考 JavaScript SEO;讓 Google 更容易看懂頁面主題的 結構化資料 Schema 標記教學,則是渲染之外另一條提升理解度的路徑。

robots.txt 與 noindex 同時使用,是爬取預算優化最陰險的地雷

談優化常見誤區,最危險的一個是「過度封鎖」:以為用 robots.txt 把所有低價值頁面 Disallow 掉就是省預算,結果連還沒被索引的重要頁面也一起封掉,收錄反而變少。封鎖前務必確認被封路徑裡沒有任何希望被收錄的頁面。

第二個地雷更陰險:robots.txt 與 noindex 同時使用。robots.txt 會阻止爬蟲讀到頁面上的 noindex 指令,結果頁面雖然爬不到 HTML 內容,卻仍可能因為被外部連結指向而被收錄,noindex 形同失效。要讓頁面不被收錄,請擇一使用,並確保爬蟲能讀到該指令。第三個誤區是把 noindex 當萬用解,它雖然能阻止收錄,但也會切斷該頁對外的內部連結權重流動,處理大量低價值頁時,robots.txt 通常比逐頁加 noindex 更有效率。

第四個誤區是迷信爬取預算而忽略內容品質:被爬到不代表會排名,再高的檢索量也救不了內容貧乏的頁面。第五個是網站改版或搬家時忽略 301 與 sitemap,舊網址的爬取與權重會中斷、新網址又還沒建立索引,等於出現爬取斷層;搭配 301 與 302 轉址教學 把轉址鏈設定好,才不會在改版後流量腰斬。說到底,這幾個地雷多半是「太積極」造成的傷害,爬取預算優化的真正難處,在於知道什麼時候該收手不做。

關於爬取預算的常見迷思與 FAQ

小型網站基本不用擔心爬取預算,你也不能直接「設定提高」它。能做的是透過提升網站速度、改善內容品質與更新頻率、優化內部連結,讓 Google 更願意把資源投在你的網站上。把它當成一張會變動的成績單來讀,比想辦法衝高分數實際得多。

常見問題

我的網站不大,也需要擔心爬取預算嗎?
頁面數量少的小型網站,Google 資源充足,新內容通常當天就會被抓取,不必特別處理。但若充斥低品質內容、錯誤頁或結構混亂,仍會拖累效率,基本功不能省。等內容與技術穩了,若想用廣告放大曝光,SEA 關鍵字廣告入門 可以接著了解;也可參考 SEO 與 Google Ads 比較

GSC 的「已檢索尚未建立索引」數字很大代表什麼?
Google 已經讀過這些網址,卻選擇先不收錄。量大的時候,通常指向兩種可能:這批頁面優先級太低,或網站結構讓爬蟲抓不到重點,這時該檢查的是內部連結與頁面價值。

網站改版用大量 301 轉址會影響爬取預算嗎?
會。大量 301 會讓 Google 重新理解網站結構,過渡期會消耗較多預算。盡量避免長距離轉址鏈,設定原則看 WordPress 永久連結 SEO 設定

爬取預算被浪費會有什麼具體症狀?
新內容很久才被收錄、重要產品頁搜尋不到、改版後排名掉了、GSC 出現大量未索引頁面。這些都是預算被無效頁面吃掉的典型表現,處理方向是清理而非衝高。

robots.txt 封鎖、noindex、410 刪除,三種做法該怎麼選?
三者目的不同,混用反而會出問題。robots.txt 適合封鎖整條不必收錄的路徑,例如後台、測試環境、無窮篩選頁,優點是一次擋掉一大批、效率高,缺點是它無法保證頁面不被收錄,只能阻止爬蟲讀取內容。noindex 適合單一頁面明確不想被收錄、但又需要爬蟲讀到指令的情況,前提是爬蟲必須能讀到這個頁面,所以 noindex 與 robots.txt 封鎖同一頁面是衝突的,務必擇一。410 狀態碼則用於明確宣告某個網址已永久移除,告訴 Google 可以盡快從索引移除並停止回頭抓取,特別適合停售商品頁與已下架的活動頁。判斷順序建議是:整條路徑不要收錄就用 robots.txt;單一頁面不要收錄但爬蟲要能讀到就用 noindex;確定永久不存在就用 410。

新站剛上線,要怎麼讓爬蟲快點來抓?
新站本身的爬取需求還沒建立,能做的是主動遞交。先把 XML Sitemap 產生好並提交到 GSC,再用網址檢查工具對幾個重點頁面要求建立索引,接著從已收錄的外部網站拉幾條連結過來,讓爬蟲有路走得到。這幾個動作只能加速「被發現」,真正會不會被收錄,仍取決於內容本身值不值得放進索引庫。

習慣用 site: 查詢估算收錄量,這個數字準嗎?
site: 查詢只能粗略估算,且會受工具端變動影響,site: 查詢 num=100 參數事件的影響 就是一個曾被廣泛誤讀的案例。判斷收錄狀況應以 GSC 網頁索引狀態報表為準,避免被 site: 的浮動數字誤導。

與其衝高預算,不如先清掉拖累它的東西

爬取預算的核心觀念可以收斂成一句話:它是 Google 對網站健康度的動態信任分級,多數網站該做的是把無效頁面從爬蟲路徑上清掉,把有限預算留給值得收錄的內容,衝高這個數字本身並非可行目標。把「衝高爬取預算」當目標,是搞錯方向;把心力放在「把有限預算花在對的頁面上」,才是 SEO 人該有的判斷框架。

判斷網站有沒有爬取預算問題,看三個訊號就夠:GSC 檢索統計資料的爬取次數是否偏低或下滑、是否有大量「已排除」或「未索引」頁面、新內容是否很久才被收錄。三項中任一項持續出現,就代表預算正在被浪費。電商網站最常見的預算殺手是無窮篩選頁,正解是用 canonical 標籤指向正本、用 robots.txt 封鎖不必要參數組合,而不是任由爬蟲把預算耗在重複內容上。篩選器該留哪些組合,也能用 Bing 關鍵字搜尋量查詢方法 交叉比對出真正有人搜的條件,避免把預算留給沒人要的頁面。

技術清理、內容品質、網站速度,這三件事得一起做才看得到效果。如果你剛好在處理改版後的排名下滑,Google 排名下滑急救技巧 可以一起看;想從更上層理解演算法邏輯,Google 搜尋演算法解析熊貓演算法與內容品質 會給你完整的脈絡。爬取預算不是一個你能調高的數字,它反映的是 Google 願不願意把資源花在你的網站上,把網站本身顧好,這個數字自然會往好的方向移動。

相關文章