SEO

爬取預算是什麼？7 大優化策略讓 Google 更有效率地抓取你的網站

Q: 我的網站不大，也需要擔心爬取預算嗎？

小型站頁面少，搜尋引擎資源綽綽有餘，通常當天就能抓完，毋須特意管理。唯有當低質內容、錯誤頁或架構混亂出現時，才會影響效率，此時回頭補強基本功即可。

Q: GSC 的「已檢索尚未建立索引」數字很大代表什麼？

代表搜尋引擎已讀過這批網址但暫不收錄。數量偏大時，多半是這些頁面價值不足，或站內連結讓爬蟲找不到重點，應從內部連結與內容價值兩端排查。

Q: 網站改版用大量 301 轉址會影響爬取預算嗎？

會。大量 301 會讓 Google 重新理解網站結構，過渡期會消耗較多預算。盡量避免長距離轉址鏈。

Q: 爬取預算被浪費會有什麼具體症狀？

常見跡象包括新文章遲遲進不了索引、主力商品頁在搜尋結果消失、改版後排名下滑，以及 GSC 累積大量未索引頁面。這些訊號代表資源被無效頁面占用，應著手清理而非設法衝高數字。

Q: robots.txt 封鎖、noindex、410 刪除，三種做法該怎麼選？

robots.txt 適合封鎖整條不必收錄的路徑，效率高但無法保證頁面不被收錄。noindex 適合單一頁面不想被收錄、但爬蟲要能讀到指令的情況，且不能與 robots.txt 同時用在同一頁面。410 狀態碼用於宣告網址永久移除，適合停售商品頁與已下架活動頁。判斷順序：整條路徑不要收錄用 robots.txt，單一頁面不要收錄但爬蟲要能讀到用 noindex，確定永久不存在用 410。

Q: 新站剛上線，要怎麼讓爬蟲快點來抓？

新站爬取需求還沒建立，能做的是主動遞交：產生並提交 XML Sitemap 到 GSC，用網址檢查工具對重點頁面要求建立索引，再從已收錄的外部網站拉連結讓爬蟲有路走得到。這些動作只能加速被發現，會不會被收錄仍取決於內容本身。

Q: 習慣用 site: 查詢估算收錄量，這個數字準嗎？

site: 查詢只能粗略估算，且會受工具端變動影響。判斷收錄狀況應以 GSC 網頁索引狀態報表為準，避免被 site: 的浮動數字誤導。

爬取預算（Crawl Budget）是搜尋引擎在一段時間內，願意分配給你網站進行抓取的頁面數量上限，由「爬取頻率限制」與「爬取需求」兩個因素動態決定，並非一個可以調高的固定數值。根…

爬取預算：Google 對網站的動態信任分級

爬取預算（Crawl Budget）是搜尋引擎在一段時間內，願意分配給你網站進行抓取的頁面數量上限，由「爬取頻率限制」與「爬取需求」兩個因素動態決定，並非一個可以調高的固定數值。根據 Google Search Central 官方對 Crawl Budget 的說明，這個上限會跟著網站的健康度與價值持續浮動。對絕大多數網站來說，這個數字 Google 早就給得夠多，真正會出問題的是預算被無效頁面吃掉。

重點先看：爬取預算反映的是 Googlebot 對網站健康度與價值的動態信任分級，本身並非業績指標；GSC 檢索統計資料記錄近 90 天爬取行為（見 Google Search Console 說明文件），多數網站該做的是清掉無效頁面，把心力放在這件事上才會看到效果。

很多站長第一次聽到「爬取預算」這個詞，直覺反應是「那我要怎麼把它調高」。這個直覺本身就是搞錯方向。Google 從來沒有提供任何一個開關、按鈕或設定值，讓你把爬取預算往上拉。它不是儲值卡，不是會員等級，更不是你衝內容產量就能換到的積分。它更接近一份 Google 對你網站的信任評估報告，會跟著網站的速度、穩定性、內容價值、更新頻率持續浮動。想知道完整脈絡，可以先讀過技術性 SEO 完整指南，把爬取放進整體技術架構裡看。

Googlebot 抓取網站的四步流程

Google 官方把 Googlebot 的抓取流程拆成四個步驟：發現網址、排程選擇、取得內容、準備進入索引（Google Search Central《How Search Works》將這條鏈路拆解得最完整）。想從源頭看懂這條鏈路，先讀過 Google 搜尋引擎運作原理會更踏實。這四步走完，頁面才真正有機會出現在搜尋結果，而爬取預算主要影響的是第二步「排程選擇」之後到底能抓多少頁。主機回應快，Google 就把頻率往上調；常出現伺服器錯誤，Google 反而會主動放慢，避免把你的站抓掛。

光有飛快的主機還不夠。就算伺服器跑得再順，如果內容本身沒人看、品質差，Google 也不會把資源浪費在這些頁面上，這正是 Google Search Central 對 Crawl Demand 的核心說明。實務上常看到一種情況：站長砸預算升級主機、導入 CDN 網站加速，GSC 的爬取量卻沒有跟著跳上來，瓶頸其實出在內容價值，主機再快也無法單獨解決。

爬取預算由兩件事共同決定

Google 官方文件講得很清楚，爬取預算由兩個變數動態組合而成，並非單一數字。理解這兩個變數，你才會明白為什麼「衝高爬取預算」這件事根本無從下手。

組成要素	決定因素	Google 的調整邏輯
爬取頻率限制（Crawl Rate Limit）	伺服器耐受力、回應速度、錯誤率	主機穩定快速就調高；常回 5XX 就放慢
爬取需求（Crawl Demand）	頁面價值、熱門度、外部連結、更新頻率	內容有價值、有人看才值得常來抓

把這張表記下來，後面所有優化動作都能對應回這兩欄。想做的是提升主機回應，就去碰網站速度優化全攻略；想做的是提升內容價值，就把資源投在值得收錄的頁面上，其中外部連結如何帶動爬取需求是爬取需求那一欄的關鍵變數。兩條路徑截然不同，別混為一談。

進一步把它寫成一句話更好記：爬取預算 ≈ 爬取頻率限制 × 爬取需求。頻率限制由你的主機承受度決定（回應慢、Google 就自動降速保護伺服器），爬取需求則由頁面價值、更新頻率與外部連結強度決定。兩者相乘，才是 Google 每天願意花多少資源抓你的網站。記住這個乘法關係，就會明白「衝高預算」根本無從下手，你能動的只有兩個因數，而多數網站該做的，是把有限的乘積導向值得收錄的頁面。

而「外部連結」這個爬取需求的關鍵變數，現實裡其實極度稀缺：Backlinko 分析約 1,180 萬筆 Google 搜尋結果發現，大約 95% 的頁面完全沒有任何反向連結 [來源：Backlinko〈Search Engine Ranking: We Analyzed 11.8 Million Google Search Results〉 https://backlinko.com/search-engine-ranking 2025-04-14]。缺乏外部連結的頁面，往往同時失去排名競爭力與爬取需求，自然也不易排上 Google 的抓取順位；這也說明了為什麼把預算導向有價值、有人連結的頁面，會比單純堆疊頁面數量更有效。

爬取與索引是兩回事

網頁被爬蟲抓到了，不保證會出現在搜尋結果。爬取（Crawl）只是 Googlebot 讀取頁面內容，索引（Index）才是決定要不要收錄，中間還隔著一段評估內容價值的過程。要確認自己的頁面到底進沒進索引庫，則看如何確認網頁被 Google 索引。這個觀念沒釐清，後面的診斷邏輯會全錯。

很多人會把這兩件事混為一談，誤以為「網頁有被爬蟲抓到，就一定會出現在搜尋結果」。實際上，搜尋引擎運作分成三個階段：爬蟲看到內容、索引決定收錄與否、排名在收錄後才競爭。索引與排名之間還有一道檢索關卡，索引之後、排名之前的檢索階段值得單獨理解，它決定了 Google 能不能在毫秒內調出對應內容；而搜尋結果的樣貌如今也多了 AI 摘要這一層，可以對照 Google AI Overviews 摘要運作來看。如果你的網頁一直沒出現在 Google，第一步該確認的是 Google 到底有沒有來爬過；如果爬過了卻沒索引，那通常是內容品質或技術設定的問題，預算本身多半是充足的。

沒被爬過：通常是網站結構太深、內部連結佈局 SEO 策略沒做好，爬蟲根本走不到那個頁面。
爬過卻被排除：屬於「正常排除」，像 noindex、重複內容、轉址、robots.txt 阻擋，不等於網站出錯。其中 noindex 標記的作用與設定是最常被誤解的一項，建議先釐清它的真正用途。
已檢索尚未索引：數字偏大時，才比較可能是爬取預算或品質的訊號。

常見的誤解是「提交 Sitemap 就等於會被索引」。Sitemap 的作用只是加速發現，不保證收錄，這跟 Google 網頁收錄查詢方法是兩回事。Google 收不收錄，終究看的是內容值不值得放進索引庫；想強化這層信任，EEAT 贏得 Google 信任的策略是更對應的著力點。

哪些網站才真的需要管理爬取預算

頁面數量少的小型網站基本不用擔心爬取預算，Google 通常當天就能完整抓取。真正需要管理的是中大型網站、剛大規模改版的網站，以及內容頻繁更新的時效性平台。判斷的關鍵在於「頁面數量有沒有逼近 Google 願意抓取的上限」，與網站規模大小本身關係有限。

Google 公開說明過，對多數網站來說爬取預算不是瓶頸（Google Search Central 在大型網站爬取預算管理文件中明確表達此觀點）。真正會卡住的，是頁面數量龐大但日抓取量跟不上的網站。換句話說，一個只有兩百篇文章的部落格，去煩惱爬取預算是白費力氣；但一個有十萬個 SKU 的電商、一個每天發上百則快訊的新聞站，就必須認真看待這件事。

把場景拉開來看，會陷入爬取預算泥沼的通常是幾種結構性處境。中大型網站如電商、新聞、招募平台，頁面量龐大但 Google 分配的日抓取量不見得跟得上規模，這也是 WooCommerce 商品頁 SEO 優化會被反覆強調的原因。剛大規模改版的網站則因大量 301 轉址與新增分類路徑，迫使 Google 重新理解網站結構，過渡期會大量消耗預算。至於即時新聞、限時優惠、股市資訊這類內容頻繁更新的平台，考驗的是能否讓爬蟲在最短時間內抓到新內容，否則時效一過頁面就失去價值。

更深一層看，爬取預算其實是網站 SEO 健康狀況的縮影。網站架構夠不夠清晰，決定了爬蟲能不能順暢找到重要頁面；內容有沒有價值，決定了 Google 願不願意把資源花在你身上。如果你的頁面長期未被收錄、或優化後排名遲遲不動，那就是明顯的警訊。這時與其糾結提升 Google 排名關鍵原因，不如先回頭檢查網站的爬取健康度。

用 Google Search Console 三工具檢查爬取健康狀態

想實際查看 Google 有沒有好好爬你的網站，打開 Google Search Console，用「網頁索引狀態報表」「檢索統計資料」「網址檢查工具」三個工具搭配，就能在不碰伺服器記錄檔的情況下掌握爬蟲行為與預算使用狀況。如果你對 GSC 還不熟，先看過 Google Search Console 介紹建立基本概念，再對照 Google Search Console 完整教學會比較好上手。Google 之外，Bing 的爬蟲同樣會造訪你的網站，Bing Webmaster Tools 安裝設定完成後，就能同步觀察另一個搜尋引擎的抓取狀況。

這三個工具各有各的用途，混在一起看會混淆。每個工具負責回答的問題不同，看的欄位也不同，得分開來讀才不會把訊號讀錯。

工具	位置	主要看什麼
網頁索引狀態	索引 → 網頁索引	多少頁面被收錄、多少被排除及原因
檢索統計資料	設定 → 檢索統計資料	近 90 天爬取行為，判斷預算使用最直接
網址檢查工具	頂端搜尋列	單一關鍵頁面深入檢查、要求建立索引

網頁索引狀態：先看哪些頁面被排除

這份報表把頁面狀態分成三大類：錯誤、已排除、未建立索引。錯誤像是 404 找不到頁面、500 伺服器錯誤，這類會直接影響爬取效率，要優先修，處理方法可以參考 404 頁面設計與優化。已排除的狀態則包括 noindex、重複內容、轉址、robots.txt 阻擋，這些大多是 SEO 的正常運作結果，不代表網站出錯。

真正要緊的是「未建立索引」底下的兩個子狀態。已找到尚未建立索引，代表 Google 爬過了但暫時不收，多半是內容品質或重複問題；已檢索尚未建立索引，代表 Google 知道網址存在但還沒進去抓。如果後者數字很大，就比較可能是爬取預算不足的訊號。更多判讀細節可搭配 GSC 五個實戰檢索技巧。

檢索統計資料：判斷預算使用最直接的數據

這份報表記錄 Google 近 90 天對你網站的爬取行為，是判斷爬取預算使用狀況最直接的數據來源，依 Google Search Console 官方說明文件的定義。還沒摸熟後台的人，先補上 Search Console 基礎認識再來讀數字會更順。重點觀察三件事：每日抓取頁數是否穩定、回應載入大小有沒有異常膨脹、主機回應時間是否偏高。健康的網站爬取量不該有劇烈起伏；如果頁面很多但爬取量偏低，就代表有東西在拖累效率。面對一堆原始數字一時抓不到重點，也能搭配 Search Console 自動生成的 AI 摘要報告，讓系統幫你標出值得留意的爬取變化。

實務上還有一個推估框架很好用：把「有效頁面總數」除以「每日平均檢索要求數」，得到的數字大約是 Google 完整爬完一輪需要幾天。要強調這是一般經驗法則，並非 Google 官方公式。舉例來說，一個數百頁的網站、每天被檢索數百次，比值遠低於 1，代表預算綽綽有餘；反過來，若一個上萬頁的網站每天只被檢索幾百次，完整爬一輪要花上數十甚至數百天，就值得正視預算吃緊。此外有兩個訊號比檢索次數更值得盯：主機回應時間若持續偏高，Google 會主動降速保護伺服器、連帶壓低檢索量；主機可用性若經常回 5xx 或逾時，Google 會把這個站判定為不健康，預算自然縮水。這兩項是中小型網站少數真正需要留意的預算相關指標。

把主機回應時間這個訊號再拆細來看，會看到三種典型曲線。第一種是長期穩定、整天維持在合理區間，這代表主機與程式端都能負擔日常流量，Google 也會維持穩定的檢索頻率。第二種是白天尖峰時段明顯飆高、深夜才回穩，這通常代表主機在真人流量與爬蟲流量同時湧入時被打滿，Google 偵測到回應變慢，會自動降低尖峰時段的檢索量，長期下來等於把預算往低峰擠壓，新內容被發現的時間也會往後延。第三種是無規律的突波，今天慢、明天又恢復，這類最棘手，因為它會讓 Google 對這個站的穩定性失去信心，即使單日平均回應時間不差，預算仍可能被壓低。對應的處理方向很明確：穩定型只要維持現狀並持續監控；尖峰型要找出瓶頸是在資料庫查詢、快取命中率還是頻寬，再決定是優化程式、升級主機還是導入 CDN 網站加速；突波型則要先釐清是主機資源不足、還是有特定外掛或排程任務在背景拖累回應。

網址檢查工具：針對單一關鍵頁面深入檢查

這個工具用來針對單一頁面深入檢查，適合分析高轉換頁、重要文章，操作細節可對照用 GSC 網址檢查工具深入診斷。新文章剛發布或修完 SEO 錯誤需要即時處理時，可以手動點「要求建立索引」讓 Google 優先重抓。但要記得，這只能針對單一頁面應急，無法系統性提升整站預算，把它當萬靈丹是錯的期待。

影響爬取預算的關鍵因素與對應優化策略

會吃掉或牽動爬取預算的變數，歸納下來大致涵蓋伺服器速度與穩定性、未封鎖的無效頁面、內部連結架構、Sitemap 品質、URL 參數、無效連結與轉址鏈，以及內容本身的價值。這些項目之間並非各自獨立，而是彼此牽動：主機回應慢會壓低頻率限制，連帶讓爬蟲走不完複雜的內部連結架構；Sitemap 塞滿無效頁面，又會把本就有限的預算導向不值得收錄的網址。它們共同的處理邏輯都是「刪減與排除」，單純增加頁面數量並不在這套邏輯裡。

伺服器速度與穩定性

Google 在你站上停留的時間是固定的，在同樣時間內，回應速度越快，爬蟲能爬完的頁面就越多，這也是網頁速度對 SEO 的影響會被反覆強調的原因。可行動作包括導入 CDN、壓縮圖片、選擇穩定主機。圖片常是最大宗的頻寬殺手，搭配圖片壓縮工具實測推薦與 WordPress 圖片優化指南處理，再開啟 Lazy Loading 延遲載入實作，效果會更顯著。進階還能看 Core Web Vitals 核心指標優化，把體驗指標一起拉起來。

用 robots.txt 封鎖低價值路徑

把預算花在不需要收錄的頁面上，等於排擠了真正重要的內容。該封鎖的包括後台登入頁、測試環境、無窮篩選頁、搜尋結果頁。設定細節可參考 robots.txt 設定與 SEO 影響，避免封錯路徑把重要頁面一起擋掉。

優化內部連結架構

內部連結是爬蟲探索網站的主要方式。重要頁面埋得太深，或根本沒有其他頁面指向它，爬蟲就很難發現。定期修復孤兒頁面，建立首頁到分類到內容的清晰階層。這部分的佈局邏輯，長尾關鍵字佈局策略和 SEO 友善網站架構規劃有完整說明。

清理 Sitemap 與處理 URL 參數

Sitemap 像是給 Google 的導覽地圖，但很多網站會把所有頁面全丟進去，反而造成反效果。正確做法是只放希望被索引的頁面，排除 noindex、重複、低品質內容。想先理解 Sitemap 在 SEO 裡的位置，XML Sitemap 對 SEO 的作用有完整脈絡；入門可讀網站 Sitemap 入門指南，實作細節看 Sitemap 產生與提交實作。與 Sitemap 互為表裡的是 URL 參數問題，這也是電商最常遇到的狀況：同一件襯衫因為篩選器或追蹤參數，產生 ?color=blue、?source=facebook 等無數個網址，內容卻幾乎相同。處理方法有三：用 canonical 標籤指向正本（搭配 Canonical URL 解決重複內容）、用 robots.txt 封鎖不必要的參數組合、在 GSC 使用路徑清理工具。網址結構本身也要顧，可參考 SEO 網址結構最佳化與 SEO 網址優化完整指南。背後的根本議題是重複內容，重複內容的辨識與解決值得當成主題來讀。

修復無效連結與轉址鏈，維持內容品質

爬蟲跟著連結走，走到死路或繞一大圈才到目的地，都是浪費。要先把全站的死鏈與跳轉挖出來，用 Screaming Frog 爬出無效連結是實務上最直接的做法。拒絕 A 到 B 到 C 到 D 的長距離轉址鏈，這會讓爬蟲消耗多倍預算卻只抓到一個頁面；同時修正 4XX 與 5XX 錯誤，避免爬蟲頻繁遇到伺服器錯誤而認定網站無法負荷。轉址設定可看 301 與 302 轉址教學。

與上述技術清理一體兩面的，是內容本身的價值，這也是所有策略裡最根本的一環。Google 會自動減少抓取沒人看、品質差頁面的頻率，這點在 Google Search Central 對 Crawl Demand 的說明中有直接交代。內容農場就是反面教材，短期內頁面數量暴增，長期只會壓低整體評價與預算。技術設定再完美，內容沒價值也救不回來。想避開地雷，可以讀內容農場對 SEO 的負面影響與 SEO 優化常見地雷；想用工具系統化檢測網站體質，用 Ahrefs 全面檢測網站體質提供完整的操作路徑，而內容的年度內容更新維護節奏同樣不能放著不管。

把這件事放大到整個網路的尺度會更清楚。在 Ahrefs 分析約 140 億個頁面的大型研究中，96.55% 的頁面從 Google 拿不到任何自然流量 [來源：Ahrefs〈96.55% of Content Gets No Traffic From Google〉 https://ahrefs.com/blog/search-traffic-study/ 2023-12-01]。這群拿不到流量的低價值頁面，正好就是 Google 在爬取需求那一欄會主動降頻、不願浪費預算反覆抓取的對象；與其堆疊頁面數量，更實在的做法是讓每一頁都具備值得被收錄、被點擊的價值。

URL 參數處理決策矩陣：四種情境對應四種做法

前面提到的七個因素裡，URL 參數是電商與大型網站最常卡關、也最容易亂下指令的一項。同一份內容因為追蹤參數、篩選器、排序、分頁而複製出數十個網址，處理方式卻不能一視同仁。究竟該用 canonical、該封鎖、該放任、還是該主動刪除，取決於兩個維度：這組參數會不會改變頁面內容，以及這組網址有沒有外部連結或實際流量。把這兩個維度交叉，就能得到一張四象限的決策矩陣，避免常見的「一律封鎖」或「一律放任」兩種極端。

情境	會改變內容？	有外部連結／流量？	建議做法
排序與分頁參數（?sort=price、?page=2）	不會	通常無	用 robots.txt 封鎖，或以 canonical 指向正本，避免重複收錄
追蹤參數（?source=facebook、?utm=email）	不會	偶有外部連結	用 canonical 指向乾淨網址，保留追蹤用途但不產生重複頁面
篩選器組合（?color=blue&size=m）	會（商品集合不同）	部分組合有人搜	只把有人搜的組合留給索引，其餘用 canonical 或 robots.txt 合併與封鎖
會話 ID、排序快照、除錯參數	不會	無	直接在 robots.txt 封鎖，或在程式端移除產生這類網址的邏輯

這張矩陣的核心判斷只有一句：會改變內容且有人搜的參數才值得留在索引裡，其餘都該合併或封鎖。篩選器要不要留，可以用 Bing 關鍵字搜尋量查詢方法交叉比對出真正有人搜的條件，避免把預算留給沒有實際需求的頁面。會話 ID 與除錯參數這類純技術產物則完全不該進入索引，封鎖後要回頭確認程式是否仍持續生成這類網址，否則封鎖只是治標。

爬取預算自助檢查清單：十二個動作逐項打勾

把前面的觀念整理成一份可執行的清單，逐項檢查就能涵蓋大多數的爬取預算問題。這份清單按「先診斷、再清理、最後驗證」的順序編排，建議從上往下做，避免在還沒確認問題前就動手封鎖路徑。

診斷階段：先確認問題真的存在

開啟 GSC 檢索統計資料，檢視近 90 天每日抓取頁數是否穩定、有無明顯下滑。
比對「有效頁面總數」與「每日平均檢索要求數」，估算 Google 完整爬一輪需要幾天，比值越大越值得警覺。
查看網頁索引狀態報表，記下「已檢索尚未建立索引」與「已找到尚未建立索引」兩個子狀態的數量。
確認主機回應時間與可用性，是否長期偏高或頻繁回 5xx。

清理階段：把無效頁面從路徑上移除

用 Screaming Frog 爬出全站死鏈與長距離轉址鏈，逐一修正或合併。
清理 Sitemap，移除 noindex、重複、低品質與已停售商品頁。
依前一段的決策矩陣，處理排序、分頁、追蹤、篩選、會話 ID 五類參數。
用 robots.txt 封鎖後台、測試環境、無窮篩選頁與搜尋結果頁，封鎖前確認路徑內沒有要收錄的頁面。
修復孤兒頁面，把重要頁面控制在距首頁 3 到 4 層以內。

驗證階段：確認改善真的生效

回頭看 GSC 檢索統計資料，確認抓取量回穩、主機回應時間下降。
追蹤重要頁面的索引狀態，確認「已檢索尚未建立索引」數量是否縮減。
對單一關鍵頁面用網址檢查工具手動要求重抓，觀察收錄速度是否變快。

這份清單真正的價值在於建立可重複執行的節奏，一次做完並非目標。中大型網站建議每季跑一次完整清單，改版前後或導入新分類時更要即時檢查，避免技術債在不知不覺中吃掉預算。

一個美肌保養電商的清理實錄

在一個美肌保養電商專案中，重新檢視網站架構、清理大量無意義轉址與重複頁面、把爬蟲導向核心產品頁後，數個月內自然流量顯著成長，季節檔期活動頁成為穩定的流量入口。需要強調的是，這是單一專案的結果，不保證所有網站複製可得同等增幅。

問題出在哪？這個品牌在季節檔期活動頁上投入大量心力，流量卻一直不如預期。接手後檢視網站架構，發現過多無意義轉址與重複頁面把爬取預算吃光，導致核心產品頁與新活動頁根本排不上 Google 的抓取順位。改善動作很直接：把爬蟲導向核心產品頁、依使用者痛點優化內容、提升活動頁讀取速度、降低跳出率。

結果是數個月內自然流量明顯成長，部分關鍵字穩穩出現在 Google 搜尋結果首頁，每當品牌推出新的季節檔期活動，活動頁也成為穩定的流量入口。回頭看這個專案，問題從來不是預算不夠，而是資源被導去抓一堆沒人要看的重複頁面。技術清理、內容調整、速度優化缺一不可，單做任一項效果都有限。如果你也在處理類似問題，關鍵字蠶食修復策略和網站流量下滑恢復方法會有幫助。

電商網站的爬取預算管理：把預算殺手一個個清掉

電商網站是爬取預算問題最集中的場域。商品多、分類深、篩選器組合爆炸，每一項都會放大無效頁面的數量。最典型的三種預算殺手分別是無窮篩選頁、分頁與排序參數、停售商品頁：無窮篩選頁讓同一件商品因顏色、尺寸、價格排列組合產生數十個幾乎相同的網址，正解是用 canonical 指向正本、用 robots.txt 封鎖不必要組合；?page=2、?sort=price 這類分頁與排序參數頁多數不必被收錄，可封鎖或合併；長期缺貨的停售商品頁則要嘛更新庫存狀態，要嘛用 410 永久移除，別讓爬蟲反覆造訪空頁。把這些無效路徑清掉、重複頁面合併、死路修好，剩下的預算自然會流向值得收錄的內容，這也是為什麼站內 SEO 優化完整攻略和 SEO 搜尋引擎優化完整指南都會把網站結構清理列為基本功。

以這類中大規模電商為例，常見的狀況是：一個商品總數約落在 5,000 到 50,000 件之間的站，因為顏色、尺寸、排序、分頁等篩選器排列組合，實際可被爬蟲造訪的網址數量往往膨脹到商品數的約 5 到 20 倍，也就是數萬到數十萬個近乎重複的頁面。依這類站的典型表現幅度，GSC 檢索統計資料裡「已檢索尚未建立索引」的數量經常佔整體檢索網址的約三到五成，每日平均檢索要求數卻只夠在數十到上百天內才完整走完一輪。處理方向應是先把無窮篩選頁與排序參數用 canonical 合併、用 robots.txt 封鎖會話 ID 與除錯參數、把停售商品頁改為 410，讓有效網址佔比回升後，新商品頁從被發現到進入索引的等待時間通常會從數週縮短到數天。要誠實說明的限制是：上述幅度是依同類網站的公開經驗區間推估，並非任何單一實測報告的精確數字，每個站的商品結構、主機規格與既有技術債差異很大，實際改善幅度可能明顯偏離這個區間，甚至出現清理後短期內檢索量波動的情形，這時判斷依據應回到「重要頁面的索引狀態是否往前推進」這項指標，檢索總量的高低僅供參考。

爬蟲爬不到頁面的常見原因與 JavaScript 渲染陷阱

有時候問題不在預算被浪費，而在爬蟲根本爬不到頁面。會造成這種情況的原因大致涵蓋頁面需要登入或付費權限、robots.txt 設定錯誤把該爬的封掉、網站結構太深讓爬蟲無路可走、伺服器回應太慢拖累抓取效率，以及 JavaScript 渲染的內容爬蟲難以解析。逐一排查這幾項，能解決絕大多數「爬不到」的疑難。

需要登入、付費或會員才能看的頁面，爬蟲被擋在門外，本來就不該期待被收錄。robots.txt 設定錯了，則會連該被收錄的重要頁面一起擋掉，這是最常見的自傷型錯誤。設定前先讀過 robots.txt 的正確寫法，並搞懂 robots.txt 與 noindex 的差異，兩者用法完全不同。結構問題則靠 SEO 友善網站架構規劃把重要頁面控制在距首頁 3 到 4 層以內。

特別值得單獨講的是 JavaScript 渲染問題。內容若靠 JavaScript 才載入，爬蟲需要二次處理，舊版處理鏈可能漏抓關鍵內容。Google 的渲染能力近年持續進步，但相較於純 HTML，JS 頁面對爬蟲仍較吃力。穩妥做法是採用 SSR（伺服器端渲染）或預渲染，把關鍵內容放進初始 HTML，讓爬蟲第一次抓取就讀得到。完整討論可參考 JavaScript SEO；讓 Google 更容易看懂頁面主題的結構化資料 Schema 標記教學，則是渲染之外另一條提升理解度的路徑。

robots.txt 與 noindex 同時使用，是爬取預算優化最陰險的地雷

談優化常見誤區，最危險的一個是「過度封鎖」：以為用 robots.txt 把所有低價值頁面 Disallow 掉就是省預算，結果連還沒被索引的重要頁面也一起封掉，收錄反而變少。封鎖前務必確認被封路徑裡沒有任何希望被收錄的頁面。

第二個地雷更陰險：robots.txt 與 noindex 同時使用。robots.txt 會阻止爬蟲讀到頁面上的 noindex 指令，結果頁面雖然爬不到 HTML 內容，卻仍可能因為被外部連結指向而被收錄，noindex 形同失效。要讓頁面不被收錄，請擇一使用，並確保爬蟲能讀到該指令。第三個誤區是把 noindex 當萬用解，它雖然能阻止收錄，但也會切斷該頁對外的內部連結權重流動，處理大量低價值頁時，robots.txt 通常比逐頁加 noindex 更有效率。

第四個誤區是迷信爬取預算而忽略內容品質：被爬到不代表會排名，再高的檢索量也救不了內容貧乏的頁面。第五個是網站改版或搬家時忽略 301 與 sitemap，舊網址的爬取與權重會中斷、新網址又還沒建立索引，等於出現爬取斷層；搭配 301 與 302 轉址教學把轉址鏈設定好，才不會在改版後流量腰斬。說到底，這幾個地雷多半是「太積極」造成的傷害，爬取預算優化的真正難處，在於知道什麼時候該收手不做。

關於爬取預算的常見迷思與 FAQ

小型網站基本不用擔心爬取預算，你也不能直接「設定提高」它。能做的是透過提升網站速度、改善內容品質與更新頻率、優化內部連結，讓 Google 更願意把資源投在你的網站上。把它當成一張會變動的成績單來讀，比想辦法衝高分數實際得多。

常見問題

我的網站不大，也需要擔心爬取預算嗎？
頁面數量少的小型網站，Google 資源充足，新內容通常當天就會被抓取，不必特別處理。但若充斥低品質內容、錯誤頁或結構混亂，仍會拖累效率，基本功不能省。等內容與技術穩了，若想用廣告放大曝光，SEA 關鍵字廣告入門可以接著了解；也可參考 SEO 與 Google Ads 比較。

GSC 的「已檢索尚未建立索引」數字很大代表什麼？
Google 已經讀過這些網址，卻選擇先不收錄。量大的時候，通常指向兩種可能：這批頁面優先級太低，或網站結構讓爬蟲抓不到重點，這時該檢查的是內部連結與頁面價值。

網站改版用大量 301 轉址會影響爬取預算嗎？
會。大量 301 會讓 Google 重新理解網站結構，過渡期會消耗較多預算。盡量避免長距離轉址鏈，設定原則看 WordPress 永久連結 SEO 設定。

爬取預算被浪費會有什麼具體症狀？
新內容很久才被收錄、重要產品頁搜尋不到、改版後排名掉了、GSC 出現大量未索引頁面。這些都是預算被無效頁面吃掉的典型表現，處理方向是清理而非衝高。

robots.txt 封鎖、noindex、410 刪除，三種做法該怎麼選？
三者目的不同，混用反而會出問題。robots.txt 適合封鎖整條不必收錄的路徑，例如後台、測試環境、無窮篩選頁，優點是一次擋掉一大批、效率高，缺點是它無法保證頁面不被收錄，只能阻止爬蟲讀取內容。noindex 適合單一頁面明確不想被收錄、但又需要爬蟲讀到指令的情況，前提是爬蟲必須能讀到這個頁面，所以 noindex 與 robots.txt 封鎖同一頁面是衝突的，務必擇一。410 狀態碼則用於明確宣告某個網址已永久移除，告訴 Google 可以盡快從索引移除並停止回頭抓取，特別適合停售商品頁與已下架的活動頁。判斷順序建議是：整條路徑不要收錄就用 robots.txt；單一頁面不要收錄但爬蟲要能讀到就用 noindex；確定永久不存在就用 410。

新站剛上線，要怎麼讓爬蟲快點來抓？
新站本身的爬取需求還沒建立，能做的是主動遞交。先把 XML Sitemap 產生好並提交到 GSC，再用網址檢查工具對幾個重點頁面要求建立索引，接著從已收錄的外部網站拉幾條連結過來，讓爬蟲有路走得到。這幾個動作只能加速「被發現」，真正會不會被收錄，仍取決於內容本身值不值得放進索引庫。

習慣用 site: 查詢估算收錄量，這個數字準嗎？
site: 查詢只能粗略估算，且會受工具端變動影響，site: 查詢 num=100 參數事件的影響就是一個曾被廣泛誤讀的案例。判斷收錄狀況應以 GSC 網頁索引狀態報表為準，避免被 site: 的浮動數字誤導。

與其衝高預算，不如先清掉拖累它的東西

爬取預算的核心觀念可以收斂成一句話：它是 Google 對網站健康度的動態信任分級，多數網站該做的是把無效頁面從爬蟲路徑上清掉，把有限預算留給值得收錄的內容，衝高這個數字本身並非可行目標。把「衝高爬取預算」當目標，是搞錯方向；把心力放在「把有限預算花在對的頁面上」，才是 SEO 人該有的判斷框架。

判斷網站有沒有爬取預算問題，看三個訊號就夠：GSC 檢索統計資料的爬取次數是否偏低或下滑、是否有大量「已排除」或「未索引」頁面、新內容是否很久才被收錄。三項中任一項持續出現，就代表預算正在被浪費。電商網站最常見的預算殺手是無窮篩選頁，正解是用 canonical 標籤指向正本、用 robots.txt 封鎖不必要參數組合，而不是任由爬蟲把預算耗在重複內容上。篩選器該留哪些組合，也能用 Bing 關鍵字搜尋量查詢方法交叉比對出真正有人搜的條件，避免把預算留給沒人要的頁面。

技術清理、內容品質、網站速度，這三件事得一起做才看得到效果。如果你剛好在處理改版後的排名下滑，Google 排名下滑急救技巧可以一起看；想從更上層理解演算法邏輯，Google 搜尋演算法解析與熊貓演算法與內容品質會給你完整的脈絡。爬取預算不是一個你能調高的數字，它反映的是 Google 願不願意把資源花在你的網站上，把網站本身顧好，這個數字自然會往好的方向移動。