W whoops.tw
SEO

不想被索引該怎麼做?不被索引的四個方法|索引技巧 | 白話文商學院

想讓某個網頁不出現在 Google,不是把方法疊越多越安全。真正關鍵是先判斷你要擋的是「爬取前」「爬取中」還是「索引」這三個階段的哪一關,再對症下藥。最常見的錯誤是同時掛上 noi…

不想被索引怎麼辦?先判斷你要擋的是「爬取」還是「索引」

想讓某個網頁不出現在 Google,不是把方法疊越多越安全。真正關鍵是先判斷你要擋的是「爬取前」「爬取中」還是「索引」這三個階段的哪一關,再對症下藥。最常見的錯誤是同時掛上 noindex 和 robots.txt,結果 robots.txt 擋住爬蟲讀取頁面,noindex 也跟著讀不到,兩個方法一抵銷,等於什麼都沒擋到。而真正不能洩漏的隱私資料,noindex 和 robots.txt 都不夠,必須用登入權限或實體隔離。

重點先看:先決定你要擋的階段,再選方法。擋索引用 noindex,擋爬取用 robots.txt,二選一就好;機密內容改用權限保護。GSC 移除網址工具只能暫時撤下網址,效果大約半年 [來源:〈要求 Google 移除你的內容〉https://support.google.com/webmasters/answer/9689846 2026]。

很多人遇到「不想被索引」這個需求,第一直覺是上網把所有看得到的方法全掛一遍,覺得這樣最保險。這個直覺在大部分技術問題上成立,但在搜尋引擎的設計裡偏偏是反效果。原因在於 Google 處理一個網頁的方式是分階段的:先決定要不要爬、爬完決定要不要收進資料庫、收進去之後才會出現在搜尋結果。你掛在不同階段的指令,一旦互相打架,後面的指令根本傳不到搜尋引擎手上。如果你剛接手一個網站,還不確定現況,怎麼查 Google 到底收錄了哪些網頁會是動手前的必要功課。

在動手之前,先把兩個名詞弄清楚會省下很多冤枉路。關於搜尋引擎的運作原理,核心是「爬取、索引、排名」三道關卡;而阻止收錄這件事處理的就是前兩關。如果你連網頁現在到底有沒有被收錄都還不確定,可以先看確認網頁是否被 Google 索引的方法,再回來決定要怎麼擋。理解爬取與爬取預算是什麼,也有助於判斷你的頁面落在哪個階段;如果你想從更根本的角度建立整體觀念,SEO 自學懶人包與底層邏輯是不錯的起點。若想一次看懂整套搜尋引擎優化的脈絡,SEO 從零開始到排名首頁的實戰指南也值得放進書單。

有一個更快的判斷捷徑,可以幫你在三秒內決定方向。問自己一個問題:這份內容如果被陌生人看到,最壞的後果是什麼?如果後果只是「有點尷尬」或「沒那麼專業」,多半落在索引層,用 noindex 處理即可;如果後果是「合約違約、個資外洩、商業機密曝光」,那就直接跳到爬取前的隔離層,連讓內容被讀到的機會都不能給。把後果嚴重度當成分流開關,比記誦一堆規則更不容易出錯,也更能在交接時讓團隊快速理解你的處理邏輯。

什麼情況下會不想被 Google 索引?

不想被索引通常是因為頁面「該存在、但不該被公開搜尋到」。背後動機多半是怕被錯的人、在錯的時間、看到錯的內容,頁面本身通常沒有問題。把這幾種情境先想清楚,你才會知道要擋到什麼程度,是擋掉一般搜尋者就夠,還是連內部員工都不能看到。

  • 過時網頁:內容已經失效但需要留檔,不希望搜尋者被誤導,例如去年的活動報名頁還掛著,深怕有人照著報名。
  • 限定對象內容:只給貴賓或內部成員看的報名頁、活動頁,不希望一般人在搜尋結果翻到。
  • 未公開內容:活動或產品頁還沒正式發布,提前曝光會打亂上線節奏,甚至被對手搶先抄走。
  • 隱私內容:含消費者個資、合約明細、客戶資料的頁面,被搜尋引擎展示等同於外洩。
  • 個人與商業原因:測試頁、感謝頁、結帳成功頁等轉換頁面,被搜尋到對使用者沒意義,還可能被當成重複內容。

這裡有一個業界反覆驗證過的教訓值得記住。假設你把一個還沒對外宣布的產品頁掛上 noindex,自以為安全,但某個合作夥伴搶先在自家網站連了一條連結過去。Google 順著外部連結發現這個頁面,即使頁面上有 noindex,照理不該被收錄,搜尋結果仍可能出現這個網址本身,差別只在於沒有內容描述,只剩一條網址列。Google 官方在索引相關文件裡也說明過這種「被連結但不被完整收錄」的狀態。結論是:只要頁面還掛在網路上、又被外部連到,就永遠有被曝光的縫隙,差別只在曝光的完整度。想知道為什麼外部連結會產生這種影響,可以參考反向連結與外部連結的影響;想進一步建立系統化的觀念,反向連結完整指南把 Backlink 的運作講得更完整。

外部連結之所以能穿透 noindex 的保護,是因為搜尋引擎對「這個網址值得收」的判斷,會參考有多少外部來源指向它。把外部連結的數量與品質當成頁面重要性的訊號,是業界公認的設計;多份大規模研究都指出,反向連結與自然搜尋流量之間存在明顯的正相關,而排名第一的結果平均擁有的反向連結數量,大約是第二到第十名合計平均的 3.8 倍 [來源:〈Backlinko (Brian Dean) — Search Engine Ranking: We Analyzed 11.8 Million Google Search Results〉 https://backlinko.com/search-engine-ranking 2025-04-14]。這也解釋了為什麼你的頁面即使掛了 noindex,只要被有力網站連到,還是可能在索引裡露出網址。要真正阻斷這條路徑,得回到後面會講的爬取前隔離。

這些情境背後其實藏著一個共通的判斷標準:你要擋的是「被看到」還是「被找到」。被看到代表內容連存在都不該讓外界知道,這要從爬取前就隔絕;被找到代表內容可以存在、只是不該出現在搜尋結果,這用 noindex 就夠。搞混這兩者,就會選錯方法。延伸理解可以看搜尋意圖與高排名關鍵,思考搜尋者到底會怎麼找到你不想被找到的頁面,而SEO 關鍵字是什麼長尾關鍵字策略能幫你預判哪些頁面最可能被搜到。網頁一旦出現在搜尋結果,點閱率 CTR 怎麼算又怎麼提升就成了另一個要面對的課題。

想不被索引,先搞懂爬取前、爬取、索引三階段

避免被索引的方法要看你擋的是哪一關。「爬取前」把內容隔絕或下架最徹底;「爬取時」用 robots.txt 擋掉爬蟲進入;「索引時」用 noindex 告訴搜尋引擎不要收錄;已經被收錄了,則用移除網址工具應急。先決定階段,方法才不會選錯,也才不會把兩個指令疊到互相打架。這四個階段對應的,其實是技術性 SEO 從網站架構到爬蟲溝通的完整指南裡會提到的底層觀念。

階段代表方法控制的是效果強度適用情境
爬取前權限隔離、下架內容是否被爬到最強機密、隱私、未公開內容
爬取中robots.txt爬蟲是否進入路徑大量參數頁、搜尋結果頁
索引時noindex 標籤是否收進資料庫中高限定對象、過時頁面
已收錄移除網址工具是否出現在搜尋結果暫時被駭、機密外洩急救

這張表是整篇文章的決策核心。我反覆強調一個觀念:方法越後面越被動,並非越後面越弱。爬取前就處理掉,等於在源頭斷流;等到頁面已經被收進 Google 資料庫,你只能拜託搜尋引擎把它撤下來,主導權就不在你手上了。所以判斷原則很單純:怕被看到用爬取前隔離,怕被收錄用 noindex,怕被爬用 robots.txt。想更深入了解三階段之間的差異,可以讀索引之後、排名之前的檢索環節

還有一個容易被忽略的點:這四個方法背後,其實對應的是你對這份內容的「信任程度」。越是不能外洩的內容,越要往表的上方移動。很多網站主把客戶名單頁只用 noindex 處理,這在技術上看似沒問題,但 noindex 對搜尋引擎來說是建議性的,這個性質決定了它不該是機密內容的最後一道防線。如果你正在規劃網站整體架構,建議先讀過SEO 友善的網站架構設計,把該藏的頁面在結構上就安排到需要權限的區塊。

把視野拉廣一點,主動擋掉部分頁面的索引,本來就不是吃虧的事。Ahrefs 分析其 Content Explorer 資料庫中約 140 億個頁面後發現,在索引頁面當中有 96.55% 完全拿不到來自 Google 的自然搜尋流量,也就是說大半網頁就算被收錄也幾乎不會被搜尋者點開。與其放任這類低價值頁面混進索引、稀釋爬取預算與整體品質訊號,不如精準挑出該擋的頁面用 noindex 或 robots.txt 處理掉 [來源:Ahrefs〈96.55% of Content Gets No Traffic From Google. Here's How to Be in the Other 3.45% [New Research for 2023]〉 https://ahrefs.com/blog/search-traffic-study/ 2023-12-01]。

把這個數據放回實務,可以推出一個反直覺的結論:你真正該花力氣保護的,其實是那少數有流量潛力、卻不該被收錄的頁面,而不是成千上萬的薄內容頁。薄內容頁就算被收錄,也只是佔去爬取預算、拉低整體品質分;但一個即將上線的重點活動頁,一旦提前被索引,會直接打亂發布節奏。所以判斷優先級的時候,請把「曝光後果」與「被收錄後是否有人搜」分開看:後者低、前者也低,掛個 noindex 收尾即可;後者高、前者高,就必須上到爬取前隔離。這個雙維度判斷,能幫你把維護資源集中在真正會出事的地方。

五分鐘決策矩陣:把頁面分到正確的階段

把上面的判斷整理成一個可以直接套用的矩陣,遇到任何「要不要擋、擋到什麼程度」的疑問,照著走就能定案。矩陣的兩個維度分別是「曝光後果的嚴重度」與「頁面被外部連結指向的機率」,前者決定你能不能接受被收錄,後者決定單靠 noindex 夠不夠。

曝光後果 \ 外連機率低(幾乎不會被連)中(偶爾被連)高(常被合作媒體、夥伴連)
輕微(尷尬而已)noindex 即可noindex 即可noindex,並定期查 GSC
中等(影響品牌、客戶觀感)noindex 加 robots.txt 監控noindex 為主,輔以權限分區改用登入權限隔離
嚴重(個資、合約、機密)登入權限或下架登入權限或下架下架或內網限定,禁用 noindex 當唯一防線

使用這個矩陣時有一個前提:你對「外連機率」的估計要誠實。很多團隊會把自家活動頁判成「低」,理由是「我們沒對外宣傳」,卻忽略了合作夥伴、贊助商、供應商往往會在自家網站放上你的活動連結。只要頁面跟外部合作有關,外連機率就自動調高一級。把矩陣當成討論起點,再根據實際的外連狀況微調,比單憑直覺可靠得多。

方法一:爬取前就把內容隔絕或下架

最徹底的做法是讓內容根本沒有被爬到的機會:要求登入權限才能讀取、只放在內部網路、或前端後端分離把資料藏在需要驗證的 API 後面。如果這份內容連你自己網站都不該被看到,就直接下架,一個不存在的網頁不用擔心被索引。這是效果最好的層級,但成本也最高,通常需要開發資源或制度配合。

  • 需要權限讀取:頁面登入後才渲染內容,未登入的爬蟲只會拿到一個空的登入牆,拿不到實際資料。
  • 內部網路限定:內容只存在 intranet,對外完全不開放,搜尋引擎的爬蟲根本進不來。
  • 前後端分離:頁面骨架公開,但實際內容走需要驗證的 API,沒有 token 就拿不到資料。
  • 直接下架:不該存在的內容就移除,連討論要不要索引的必要都沒有。

很多人聽到「密碼保護頁面是否會被索引」這個問題會直覺地擔心。結論是:只要登入牆真的有擋住內容渲染,爬蟲拿到的就只是登入表單,這個表單頁面可能被索引,但你的實質內容不會。這裡的陷阱在於「登入牆的實作方式」。如果你的頁面是先送出完整 HTML 再用前端 JavaScript 把內容隱藏,那等於是把內容雙手奉上給爬蟲,這在JavaScript 網站與爬蟲渲染問題裡是經典的失誤。正確做法是在伺服器端就根據登入狀態決定要不要回傳內容,而網站本身的安全性與 HTTPS設定,則是這道登入牆能不能被信任的地基。

判斷你的登入牆到底擋住了什麼,有一個簡單的自檢方法:在不登入的情況下,用瀏覽器「檢視原始碼」打開那個頁面,然後在原始碼裡搜尋你的敏感內容關鍵字(例如客戶名字、合約編號、報價金額)。如果搜得到,代表伺服器已經把完整內容送出,只是用 CSS 或 JavaScript 在畫面上隱藏,這種做法對爬蟲來說等於沒有擋。真正安全的登入牆,在原始碼裡只會看到表單與提示文字,敏感內容一個字都不該出現。這個檢查三十秒就能做完,卻能擋掉大多數「以為有擋其實沒擋」的失誤。

前後端分離是近年比較推薦的做法。把敏感資料放到需要驗證的 API 後面,公開的頁面骨架幾乎不含實質內容,即使被索引也只是個空殼。這個架構對安全也有幫助,因為你把驗證邏輯集中到 API 層,不會散落在各個頁面。不過要注意,如果你的 API 沒有做好跨來源限制,等於換個地方外洩而已。整體網址結構的健康度也會影響這套機制能不能跑順,可以對照好的網址命名與結構,或回頭看網址結構與 SEO 地雷網域與網址的差別,把基礎打穩。網址層的清理要動到 301 轉址或命名規則時,URL 命名與 301 轉址的優化指南有可依循的細節。

直接下架聽起來最笨,卻常常是最聰明的選擇。我見過不少網站把過時的促銷頁、測試頁留著「以防萬一」,結果每過一陣子就要煩惱它們會不會被搜尋引擎收錄、要不要補掛 noindex。一份你已經確定不會再用的內容,留著的維護成本遠大於它的價值。與其每年擔心一次,不如一次處理乾淨。如果你正在做這類清理,網站搬家與改版的索引風險提到的整批處理觀念可以借鏡。很多架站族會在WordPress SEO 必做的設定裡一併把這類過時頁面整理掉。

對「下架」這個動作要補充一個技術細節:單純把頁面內容清空,搜尋引擎那邊的舊索引並不會自動消失。正確的下架流程是先把頁面回傳 410 Gone 狀態碼(明確表示這個資源已永久移除),或在不得已時用 404,讓搜尋引擎知道這個網址已經不存在、可以從索引裡移除。比起放著一個空白頁或軟性 200 回應,明確的 4xx 狀態碼能讓 Google 更快把這個網址從資料庫清掉。若該網址已經累積了外部連結,下架後還要一併規劃 301 轉址到最相關的替代頁,把既有的權重承接過去,避免流量憑空消失。

robots.txt:在路徑層擋下爬蟲

robots.txt 可以擋掉大多數爬蟲進入特定路徑,當沒有爬取通常就沒有索引,但它不是百分之百。爬蟲未必完全遵守規則,而且如果其他網站連到你的頁面,爬蟲還是可能順著外部連結爬到、甚至照樣收錄。robots.txt 控制的是「該不該爬」,不是「會不會被索引」,這兩句話聽起來像,其實差很遠。

  • robots.txt 的角色:限制爬蟲進入指定路徑,屬於建議性規則,主流搜尋引擎會尊重,但不是保證。
  • 風險一:爬蟲未必完全尊重規則,仍有漏網之魚,尤其是惡意或非主流的爬蟲。
  • 風險二:外部網站連到該頁面,爬蟲順著連結爬到,還是可能被索引。
  • 正確定位:處理掉大多數不想被索引的頁面,但不能視為萬無一失。
  • 適用情境:大量重複、參數頁、站內搜尋結果頁等系統性產生的頁面。

第二個風險是最常被低估的。假設你用 robots.txt 擋住了一個報名頁,但某個合作媒體寫了一篇文章連到這個頁面。Google 的爬蟲在爬那篇文章時,會把這個連結記下來,即使它因為 robots.txt 而不去爬這個頁面的內容,卻可能因為「有外部來源指向它」而把它收進索引,只是索引裡只有網址、沒有描述。這種被稱為「被連結但不被爬取」的狀態,在很多內部連結與網站架構的討論裡都會提到。換句話說,robots.txt 擋得住你的網站不讓爬,擋不住別人的網站幫你曝光。

robots.txt 最適合用在系統性、大量、重複性高的頁面。例如電商網站的篩選參數頁、論壇的排序頁、搜尋結果頁,這類頁面數量動輒上千,一個一個掛 noindex 不現實,用 robots.txt 在路徑層級一次擋掉最有效率。這也牽涉到爬取預算的管理,把爬蟲的時間留給真正值得收錄的頁面;搭配一份乾淨的XML Sitemap,能進一步引導爬蟲把力氣花在對的地方。想完整理解 robots.txt 的語法和效果,讀robots.txt 完整介紹與 SEO 效果會比這裡講得更仔細,而爬取預算怎麼優化才不浪費爬蟲配額則把背後的調校邏輯拆得更細,網站 Sitemap 入門指南也適合一起對照著看。

有一種錯誤用法要特別小心:把整個網站用 robots.txt 全擋下來,以為這樣就不會被索引。結果是爬蟲進不來,但你已經收錄的頁面也無法被重新檢查,連你自己之後掛的 noindex 都讀不到。如果你懷疑自己掉進這種狀況,下一節會把背後的衝突機制拆清楚。

robots.txt 還有一個語法層的常見失誤值得拉出來講:路徑規則寫得太寬或太窄。例如想擋 `/private/` 整個資料夾,卻誤寫成 `Disallow: /private`,這條規則會連 `/privacy-policy`、`/private-tour` 這類完全不該被擋的頁面一起封掉,造成重要頁面突然不被爬、流量無預警下滑。另一種相反的失誤是路徑後面漏了斜線或萬用字元,導致規則根本沒命中目標。確認 robots.txt 是否如預期生效,最穩的做法是到 GSC 的 robots.txt 測試工具輸入實際網址,逐一驗證哪一條規則生效、哪一條被覆蓋,不要只看檔案內容就斷定。對於路徑命名本身就容易打架的網站,建議把敏感資料夾命名得夠獨特,從源頭減少規則誤傷的機會。

noindex:直接宣告不要收錄

noindex 是直接告訴搜尋引擎「這個頁面不要收進索引」的標籤,掛上之後 Google Search Console 的網頁索引報表會顯示「網址含有 noindex 標記」。它效果好但偶爾有例外,因為這類標籤對搜尋引擎來說是建議性的;真正不能洩漏的資料,請改用密碼或權限保護,不要只靠 noindex。理解noindex 標籤是什麼、怎麼用之後,再來看它在整套策略裡的位置。標籤該怎麼寫、放哪裡,站內 SEO 從內容到標籤的調整攻略有更全面的對照說明。

  • noindex 的意義:no 加上 index,明確宣告這個頁面不要被收進搜尋引擎的資料庫。
  • 驗證方式:到 GSC 網頁索引報表,被擋下的頁面會標示「網址含有 noindex 標記」[來源:〈Block indexing of your content (noindex)〉https://developers.google.com/search/docs/crawling-indexing/block-indexing 2026]。
  • 效果定位:好,但屬於建議性,偶爾有意外,不該當成機密內容的唯一防線。
  • 誤用警訊:希望被收錄的頁面千萬別誤掛 noindex,這是新手最常犯的致命錯誤。
  • 安全底線:機密內容不要只靠 noindex,要用登入權限或實體網路隔離。

noindex 怎麼用其實不複雜,最常見的是在頁面的 head 區段放一個 meta 標籤,或在 HTTP 回應標頭裡帶上 X-Robots-Tag。兩種方式效果相同,差別在於後者適合用在無法改 HTML 的檔案類型,例如 PDF 或圖片。判斷 noindex 到底有沒有生效,最快的方法是到 GSC 的網址檢查工具輸入網址,看回傳的索引狀態,或直接用F12 開發者工具檢查頁面原始碼裡的 meta 標籤是否真的掛上去。如果你手上有大量網址要檢查,用Screaming Frog跑一次全站爬取,能一次把所有 noindex 頁面列出來。想善用 GSC 做這類檢查,Google Search Console 實戰技巧整理了不少檢測訣竅。

這裡要點出一個多數教學不講的觀念:noindex 和 robots.txt 是兩個不同階段的指令,它們對搜尋引擎的「承諾」不一樣。noindex 承諾的是「你可以爬,但不要收」;robots.txt 承諾的是「你連爬都不用爬」。承諾不同,疊在一起就會打架,這也是為什麼前面一再強調二選一。搜尋引擎其實是用一組「指令層」來理解你的網站,指令之間互相矛盾的後果比你想的嚴重。

老實說,noindex 最危險的風險在於用錯地方,而非沒效。把 noindex 掛到首頁或分類頁這種應該大量曝光的頁面,等於親手把流量來源關掉,而且這種錯誤常常在改版或交接時發生,一掛就是幾個月沒人發現。養成習慣:每次動到網站的索引設定,就用 GSC 的網頁索引報表掃一遍,確認沒有把該收錄的頁面誤擋。這個報表怎麼看,Google Search Console 常用功能介紹有完整說明。順帶一提,noindex 的指令通常也會反映在Title Tag結構化資料與搜尋結果呈現OG 標籤與社群分享這些頁面元素的處理上,整批調整時不要漏掉。至於結構化資料標記該怎麼搭配頁面語意,Schema 結構化資料標記完整教學可以當作延伸讀物。

meta robots 與 X-Robots-Tag:兩種寫法的選擇與陷阱

noindex 有兩種落地形式,選哪一種取決於你要擋的是網頁還是非 HTML 資源。meta robots 寫在 HTML 的 head 裡,語法是 ``,適用於所有可以改原始碼的網頁,也是絕大多數 CMS 內建或外掛支援的形式。X-Robots-Tag 則是寫在伺服器回應的 HTTP 標頭,適合無法塞進 HTML 的檔案,例如 PDF、試算表、圖片、影片縮圖,或是經由 CDN 或 API 動態產生、根本沒有固定 HTML 的資源。

面向meta robots(HTML)X-Robots-Tag(HTTP 標頭)
寫入位置HTML head 區段伺服器或 CDN 回應標頭
適用資源網頁、文章、分類頁PDF、圖片、API 回應、靜態檔
修改成本低,CMS 或外掛可批次處理中高,需動伺服器或 CDN 設定
常見失誤掛了 nofollow 卻漏掉 noindex標頭被快取層覆蓋而失效
驗證方式GSC 網址檢查工具curl 檢視回應標頭加 GSC 驗證

選擇時有一個原則:能用 meta robots 就先用 meta robots,因為它修改成本低、驗證直覺;只有當對象是檔案或 API 回應、根本沒有 HTML 可以塞標籤時,才動用 X-Robots-Tag。兩種寫法也可以混合,例如文章頁用 meta robots,而網站上提供下載的白皮書 PDF 另外在伺服器層用 X-Robots-Tag 處理,兩者互不衝突。要特別提醒的是,noindex 與 nofollow 是兩件不同的事:noindex 是「不要收」,nofollow 是「不要跟著頁面上的連結傳遞權重」。新手常把 content 寫成只有 nofollow,以為這樣就等於不被收錄,結果頁面還是進了索引,只是連結權重不外傳。要擋索引就明確寫 noindex,需要兩者一起處理時就寫 `noindex, nofollow`,不要用單一個 nofollow 偷懶。

方法四:GSC 移除網址工具(應急用)

Google Search Console 的移除網址工具可以把特定網址快速從 Google 搜尋結果撤下,但它只是暫時性,效果大約維持半年;想要永久不被索引,還是得回到 noindex、robots.txt 或權限隔離。這個工具主要用在被駭、機密外洩等需要立即處理的緊急狀況,正常營運時不太會用到,屬於應急工具而非日常手段。要完整掌握 GSC 的各項功能,Google Search Console 完整使用指南是值得收藏的參考。

  • 工具位置:GSC 左側欄,產生索引選單下的「移除網址」。
  • 時效限制:暫時性,效果大約半年 [來源:〈要求 Google 移除你的內容〉https://support.google.com/webmasters/answer/9689846 2026],期滿後若沒有搭配其他方法,網址可能再次出現。
  • 永久解法:必須搭配 noindex、robots.txt 或權限隔離,才能根治。
  • 主要用途:被駭入、機密外洩、錯誤頁面臨時上線等需要立即止血的情境。
  • 注意事項:正常情況不太會用到,不要把它當成常規的索引管理工具。

移除網址工具能不能永久移除索引,是很多人搞不清楚的地方。官方的設計很明確:這個工具給你的是大約半年的緩衝期,讓你在這段時間內把該做的永久處理做好 [來源:〈要求 Google 移除你的內容〉https://support.google.com/webmasters/answer/9689846 2026]。半年一到,如果頁面上的 noindex 或權限保護沒有到位,網址會再回到搜尋結果。所以這個工具的角色比較像「消防栓」,不是「防火牆」。如果你還沒裝好 GSC,先看過Google Search Console 安裝教學,確認能正常使用這個工具;用 WordPress 架站的人則可參考WordPress 網站提交 Google Search Console

真正會用到這個工具的情境,多半伴隨著壓力。例如網站被駭客塞了一堆賭博或成人內容頁面,每多掛一小時在搜尋結果,對品牌都是傷害,這時候移除網址工具能讓你快速把那些網址撤下,爭取時間清理後台。另一種情境是員工不小心把含客戶個資的頁面上線,被 Google 抓走了,移除工具是第一時間的止血手段。處理這類緊急狀況時,搭配AhrefsLooker Studio監測索引變化,會更掌握全域狀況。

把視野拉高,這四個方法其實構成一個完整的應急梯度:平常預防用爬取前隔離和 noindex,系統性頁面用 robots.txt,出事才用移除網址工具。把這個梯度記在心裡,遇到突發狀況才不會手忙腳亂。想知道整體索引健康度怎麼長期追蹤,內容更新與索引新鮮度有持續維護的觀念可以參考。若想把排名表現也一併顧好,破解 Google 排名上不去的關鍵原因提供具體的排查方向。

重要陷阱:noindex 與 robots.txt 不要同時用

千萬不要同時用。robots.txt 會擋住爬蟲讀取頁面,導致頁面上的 noindex 也跟著讀不到,搜尋引擎反而不知道「這頁不能被索引」,結果是兩個方法互相抵銷、保護效果歸零。記住原則:想擋索引用 noindex,想擋爬取用 robots.txt,二選一就好。這個陷阱之所以危險,是因為它表面上看起來「兩個都掛」很謹慎,實際上卻把保護牆拆掉了。

  1. 衝突機制:robots.txt 擋住爬蟲讀取頁面內容。
  2. 連鎖反應:頁面上的 noindex 標籤也讀不到。
  3. 認知斷層:搜尋引擎不會知道這個頁面不被允許索引。
  4. 最終結果:兩個方法互相抵銷,保護效果 1+1=0。
  5. 修正動作:移除其中一個,並用 GSC 網址檢查工具驗證 noindex 是否被讀到。
組合爬蟲能否讀頁面能否讀到 noindex實際保護效果
只掛 noindex頁面不被索引
只掛 robots.txt不能不能多數不被爬,但仍可能因外部連結被索引
兩者同時掛不能不能noindex 失效,保護歸零

問題的根源是 robots.txt 會把 noindex 的傳遞路徑切斷,而非兩個方法本身有沒有效。noindex 像是貼在門上的「謝絕訪客」牌子,robots.txt 則是把通往這扇門的路整個封掉。路一旦封了,牌子貼得再大也沒人看得見,而搜尋引擎不知道有這面牌子,就會照自己的判斷決定要不要收。這個機制在robots.txt 與 noindex 為何不能同時用有更技術性的拆解。

有沒有例外?少數情況下,如果某個頁面同時被大量外部網站連結,單靠 noindex 可能不夠保險,這時候可以用 noindex 為主、robots.txt 為輔,但前提是你非常清楚自己在做什麼,而且要持續用 GSC 監控。對絕大多數情境來說,二選一才是最穩的做法。驗證方式是用 GSC 確認 noindex 是否真的被讀到,不要憑感覺判斷。

這個陷阱還有一個變形:很多人以為 canonical 可以取代 noindex。不行。canonical 解決的是「多個網址指向同一段內容時,哪一個才是標準版」,它是在索引層做合併,不是在做排除。把 canonical 當 noindex 用,結果會是頁面還是被索引、只是權重被轉移。兩者的差異在canonical 標準網址解決重複內容重複內容如何處理裡講得很清楚,不要混為一談;若是轉載來的內容,文章轉載對索引的影響也值得一起讀。

這裡再補一個更細的層級:當 noindex 和 canonical 同時出現在同一個頁面,兩者會發生微妙的互動。noindex 告訴搜尋引擎「不要把這頁收進索引」,canonical 則告訴它「如果要合併,請把權重併到另一個標準網址」。當搜尋引擎收到 noindex,它通常會連帶停止處理這個頁面上的 canonical,因為一個不會被收錄的頁面,討論它要把權重併到哪裡意義不大。換句話說,掛了 noindex 之後再掛 canonical 想導流,多半是白費功夫。如果你真正想要的是「頁面可以存在、但權重集中到主力頁」,正確做法是拿掉 noindex、只留 canonical,讓搜尋引擎走合併路徑;如果你要的是「這頁徹底不要被收」,那就留 noindex、別期待 canonical 還能做事。把這兩者的優先級搞清楚,能避免一堆「明明都掛了卻沒效果」的困惑。

不是自己網站的內容,如何要求下架?

可以要求下架,但路徑有限。最直接的是寄信請對方網站下架,若有法理依據(如侵權、合約)可請法律團隊協助;在特殊情況下也能要求 Google 直接移除特定網址,主要適用於非自願性內容、版權或商標侵權、法院命令等法定類別,可透過 Google 的移除資訊申請管道提交。現實是,一般商業糾紛或單純不喜歡的內容,Google 通常不會介入。有些被惡意塞來的連結屬於垃圾反向連結與 Disavow 處理的範疇,需要分開處理。

  • 路徑一:直接聯繫對方網站請求下架,必要時動用法律團隊發函。
  • 路徑二:向 Google 提出移除申請,限於法定類別,透過官方「要求移除特定資訊」表單提交 [來源:〈從 Google 移除個人資訊〉https://support.google.com/websearch/troubleshooter/3111061 2026]。
  • Google 可介入的類別:非自願性內容、版權侵害、商標侵權、法院命令等。
  • 現實限制:一般商業糾紛、個人意見、負面評論,Google 通常不會介入。
  • 申請前準備:備妥網址、侵權依據、身分證明等資料,提高通過率。

直接聯繫對方是最快也最有效的方式。多數網站管理者收到合理的下架請求都會處理,畢竟他們也不想惹麻煩。重點是把請求寫得具體:指出是哪一頁、哪一段內容、依據是什麼。如果對方不回應或拒絕,再考慮走法律途徑。版權侵權要求 Google 下架是另一條路,但 Google 的審查有一定標準,不是送了就會過,常見可介入的類別在官方政策頁有清楚列出 [來源:〈從 Google 移除個人資訊〉https://support.google.com/websearch/troubleshooter/3111061 2026]。要小心的是,近年有不少假 DMCA 與 SEO 連結詐騙,送出侵權聲明前務必確認自己的依據是真的,必要時用Google 搜尋技巧與來源判讀先查證對方資料的真偽。若牽涉到對手用低質量連結攻擊你,反向連結怎麼挑才算是高品質能幫你判斷風險來源。

要求 Google 移除特定網址這條路,不是什麼內容都能走。Google 只在法定類別裡介入,例如涉及非自願性曝光的私密內容、明確的版權侵害、商標侵權,或是法院已經下了命令的情況。如果你遇到的只是競爭對手寫了不利於你的評論、或某篇文章你覺得不公平,Google 幾乎不會理會,這類問題只能回到對方網站或法律途徑解決。這個邊界很硬,沒有灰色地帶。送出申請時,把官方表單需要的欄位填齊全,附上具體證據,會比長篇大論的陳情更有效。

講了這麼多,把整套方法回顧一下。處理「不想被索引」這件事,核心動作只有三步:先判斷你要擋的階段,再選一個對應的方法,最後驗證方法真的生效。多數人卡住的原因很少是方法太難,通常是因為把多個方法疊在一起,以為這樣更保險,結果反而把保護拆掉。noindex 與 robots.txt 同時掛會互相拆台,移除網址工具只是半年的緩衝,機密內容要靠權限而不是靠標籤。這些原則也適用於避免被搜尋結果頁元素收錄的情境,至於那些用黑帽 SEO 與索引風險製造出來的不當頁面,更要第一時間處理掉。

最後補一個常被問到的觀念:noindex 和 robots.txt 對搜尋引擎來說都是建議性的,這個性質決定了它們的天花板。真正不能洩漏的隱私或機密內容,請用登入權限、內部網路或實體隔離來處理,把搜尋引擎的「建議」當成最後一道防線是危險的。這個安全邊界是一般教學最常忽略的地方,卻是資料外洩事故裡最常見的破口。想長期經營網站的索引健康度,可以從E-E-A-T 內容品質原則資訊增益與內容差異化的角度,回頭檢視哪些頁面值得被收錄、哪些根本不該存在;贏得 Google 信任的 EEAT 完整指南把這套標準講得更系統化。在 AI 搜尋時代,被索引的頁面還可能被引用進Google AI OverviewsAI 搜尋引擎Google 如何看待 AI 內容的結果裡,這讓「該不該被收錄」的判斷比過去更重要;想跟上這波趨勢,讓 ChatGPT 與生成式 AI 助攻 SEO 的實戰心法Google AI Mode 搜尋新時代的因應策略提供了切入方向。

進階疑難排解:noindex 掛了卻還是出現在搜尋結果

最讓人焦慮的狀況,就是明明已經掛了 noindex,頁面卻還是出現在 Google 搜尋結果。這時候先別急著懷疑工具失效,按下面的檢查清單逐項排查,通常能在十分鐘內定位問題。九成的「noindex 沒效」都出在某一個環節讓訊號根本沒傳到搜尋引擎手上,工具本身其實運作正常。

  1. 確認 robots.txt 沒有同時擋住這個路徑,否則 noindex 會讀不到。
  2. 用 GSC 網址檢查工具看「實際渲染後」的頁面,確認 meta robots 或 X-Robots-Tag 真的出現在回傳結果裡,避免只看原始碼就誤判。
  3. 確認 noindex 是在伺服器端就回傳,避免靠前端 JavaScript 動態插入(JavaScript 動態插入的標籤常因渲染失敗而被忽略)。
  4. 檢查頁面回傳的 HTTP 狀態碼是不是 200,若被軟性轉址或回傳錯誤碼,noindex 可能根本沒被處理。
  5. 確認這個網址沒有被 sitemap 列為重要頁面,或被內部主選單、首頁強力連結,這會讓搜尋引擎持續嘗試收錄。
  6. 等待足夠的重新檢索時間:noindex 是在下次檢索時才會被讀到,若頁面很久沒被重新檢索,舊索引會暫時還在。
  7. 排除快取層干擾:CDN 或快取外掛可能把舊的無 noindex 版本回傳給爬蟲,記得清除快取後再驗證。

第六點是很多人忽略的時間因素。noindex 是「建議性」指令,要等到搜尋引擎下次檢索這個頁面時才會被讀到,而檢取的頻率取決於這個頁面的重要性與網站整體的爬取預算。一個冷門頁面可能幾週才被重新檢索一次,期間它的舊索引自然還會出現在搜尋結果。想加速處理,可以用 GSC 網址檢查工具裡的「要求建立索引」功能,主動請求重新檢取;但這個功能只適合用在少數幾個關鍵網址,無法拿來大量批次,所以平常就要把 noindex 掛好,等到出事才補掛,永遠會有時間差。

如果逐項檢查都正常、頁面也確實被重新檢索過了,卻還是出現在搜尋結果,那就回到前面講過的「被連結但不被爬取」狀態:有大量外部來源指向這個網址,搜尋引擎即使尊重了 noindex,仍可能在結果裡保留一條只有網址、沒有描述的條目。這種條目通常不會有具體內容摘要,曝光風險有限,但如果連網址本身都構成敏感資訊,唯一可靠的解法就是回到爬取前隔離,把這個網址直接下架或改成需要登入,從根源斷掉外部連結能指向的對象。

碰到這類「掛了還是漏網」的案例,處理的優先順序應該由後果嚴重度倒推回來,而非取決於哪個方法最快。一個可依循的排序是:先問這條漏網網址是否含個資、合約或未公開商業機密,只要任何一項成立,就跳過 noindex 與 robots.txt 的微調,直接進入下架或登入隔離;若只是過時活動頁或重複的篩選頁,補掛 noindex 並等待重新檢索即可,不必動用開發資源。把人力集中在後果嚴重的少數網址上,比逐條修補幾百個低風險頁面更划算,這也是把「曝光後果」與「被收錄後是否有人搜」這兩個維度分開判斷的實際好處。

不想被索引的檢查清單與日常維護

把前面所有觀念收攏成一份可以照表操課的檢查清單,方便你在每次改版、交接、或定期健檢時拿出來逐項確認。索引管理之所以容易出問題,多半是因為它被當成「一次性設定」,實際上網站會持續新增頁面、外部連結會變動、改版也會打亂既有設定,所以這份清單值得每季固定跑一次。

  • 每季用 GSC 網頁索引報表匯出「被排除的網址」清單,逐項確認排除原因是否符合預期。
  • 確認所有含客戶個資、合約、報價的頁面都已上登入權限,避免只掛 noindex。
  • 檢查 robots.txt 是否有誤擋重要路徑,並用 GSC 測試工具驗證關鍵網址的生效規則。
  • 確認 noindex 與 robots.txt 沒有同時掛在同一批頁面上。
  • 把已下架的網址改回 410 Gone,並為有外部連結的網址規劃 301 轉址。
  • 核對 XML Sitemap 只列出你希望被收錄的網址,不要把 noindex 頁面也送進去。
  • 改版或交接時,把索引設定納入交接文件,避免新接手的人誤把 noindex 拿掉。
  • 定期檢查是否有新的外部連結指向你不希望曝光的頁面,必要時提前升級保護層級。

把這份清單落實成例行流程,索引管理才會從「每次出事才補救」變成「事先防堵」。多數索引事故都源於設定之間互相打架、或長期沒人回頭檢查造成的累積偏差,鮮少是單一指令失效。固定的季檢能讓這類偏差在被搜尋者看到之前就先被發現,成本遠低於事後救火。

不想被索引的常見問題

把上面的觀念整理成幾個最常被問到的問題。下面的回答都扣著「先判斷階段、再選方法、最後驗證」這個主軸,細節對應到前面提過的 robots.txt、noindex、兩者不可同時用與 canonical 幾篇討論。

不想被索引該怎麼做?

先判斷你要擋的是爬取還是索引,再選一個方法:擋索引用 noindex,擋爬取用 robots.txt,機密內容用登入權限。兩者不要同時掛,否則會一加一小於一。

robots.txt 能完全防止被索引嗎?

不能。robots.txt 控制的是爬蟲要不要進入路徑,不保證頁面不會被索引。若其他網站連到該頁面,爬蟲仍可能順著連結把它收進索引。

noindex 跟 robots.txt 可以同時使用嗎?

不建議。robots.txt 會擋住爬蟲讀取頁面,連帶讓頁面上的 noindex 讀不到,搜尋引擎反而不知道這頁不被允許索引,等於兩個方法互相抵銷。

移除網址工具可以永久移除索引嗎?

不行,它只能暫時撤下網址,效果大約維持半年。要永久不被索引,必須再搭配 noindex、robots.txt 或權限隔離。

為什麼已經設了 robots.txt,頁面還是被索引?

通常是因為有外部網站連到這個頁面。爬蟲雖然不去爬頁面內容,卻會因為「有外部來源指向」而把它收進索引,索引裡只剩網址、沒有描述。

報名頁或限定對象內容怎麼擋掉搜尋引擎?

只擋搜尋結果用 noindex 就夠;若連一般人都不該看到,改成需要登入才能讀取,把內容藏在驗證後面,效果最徹底。

頁面需要登入才能看,還會被索引嗎?

只要登入牆在伺服器端就擋住內容回傳,爬蟲拿到的只是登入表單,實質內容不會被索引。但要小心前端才隱藏內容的做法,爬蟲仍可能拿到完整 HTML。

被駭客塞了爛頁面,怎麼緊急從 Google 移除?

第一步用 GSC 移除網址工具把網址快速撤下,爭取大約半年的緩衝;同時清理後台、移除惡意頁面,並補上 noindex 或權限保護,才能根治。

noindex 跟 canonical 可以同時掛嗎?

不建議同時掛在同一個頁面。noindex 會讓搜尋引擎停止處理這個頁面,連帶 canonical 也跟著失去作用。想集中權重就拿掉 noindex、只留 canonical;想徹底不被收錄就留 noindex、別再期待 canonical 還能導流。

noindex 要多久才會生效?

noindex 是在搜尋引擎下次檢索這個頁面時才會被讀到,冷門頁面可能要等幾週。想加速,可用 GSC 網址檢查工具的「要求建立索引」主動請求重新檢取,但這只適合少數關鍵網址,無法大量批次。

把整套觀念收攏一下:阻止收錄的重點在於先判斷階段、再選一個方法、最後驗證生效,單純把工具全掛上去反而會出問題。日常營運可以建立的習慣,是先把監測工具裝好,定期看網頁索引報表掌握收錄狀態,遇到單一網址疑問就用網址檢查工具確認。核心原則只有幾條:noindex 擋索引、robots.txt 擋爬取、兩者二選一、機密內容靠權限、應急才用移除網址工具。把這幾條對應到正確的階段,剩下的就是定期回來用報表檢查。

相關文章