SEO 重複內容指南:什麼是重複內容,如何解決重複內容的負面影響? | 白話文商學院
SEO 裡的重複內容(duplicate content),指的是「內容相同或極度相近、但網址不同」的頁面。不同網址在 Google 眼中就是不同頁面,哪怕內文一字不差。根據 Go…
SEO 裡的重複內容(duplicate content),指的是「內容相同或極度相近、但網址不同」的頁面。不同網址在 Google 眼中就是不同頁面,哪怕內文一字不差。根據 Google Search Central 官方說明,重複內容原則上不構成懲罰,但 Google 會從一堆重複版本裡只選一個收錄、其餘忽略(來源:Google《避免建立重複的內容》)。真正要擔心的是版本選擇權不在你手上、權重被瓜分、檢索預算被浪費。
重點先看:重複內容不會被 Google 懲罰,卻會把權重與檢索預算分散到 8 倍以上的重複版本上。處理的本質是讓 Google 毫不猶豫地知道哪個網址才是正本(來源:Google Search Central)。
一句話定義:網址不同、內容相同或相近就是重複內容
只要內容相同或極度相近、但網址不同,對 Google 來說就是重複內容。判斷標準是「網址不同+內容相同/相近」,跟你有沒有抄襲無關。換句話說,這是技術與內容雙重問題:可能是網站設定失誤造成,也可能是內容策略造成。
很多人聽到「重複內容」直覺聯想到抄襲,這其實是誤解。Google 的認定比你以為的嚴格得多:兩個頁面只差尺寸、顏色這類細節,也可能被判為重複(來源:Google Search Central 對電商重複內容的官方建議)。這也是為什麼電商網站的同款商品不同顏色頁,是重複內容的高危險群。
先把發生位置分清楚。重複內容分兩大類:同網域(網站自己內部)與跨網域(不同網站之間,例如轉載)。兩者的成因跟處理方式差很多,後面會分開講。若你對網址本身還不熟,建議先讀網址(URL)的基礎與常見 SEO 地雷與區分網域(Domain)與網址(URL),會更容易理解為什麼「網址不同」就會出事。
這裡補充一個判讀細節:Google 判定重複時,看的並非「頁面長得像不像」,而是把整頁主體內容做指紋比對(content fingerprinting)。版面、配色、側欄完全不同的兩個頁面,只要主體文字段落高度重疊,仍會被歸為同一組重複版本;反過來說,兩個版型一模一樣的頁面,只要主體文字差異夠大,也不會被判重複。這個機制解釋了為什麼「改改配色、換張首圖」這類表面調整完全無效,真正的關鍵在於主體文字的差異化程度。
重複內容不會被懲罰,真正的代價藏在版本選擇權
原則上不會被「懲罰」。但 Google 只會從一堆重複版本裡挑一個收錄,其餘版本會被忽略或不索引。版本選擇權不在你手上,這才是真正的風險。你以為的「懲罰」,其實是 Google 在做版本正規化。
Google 官方白紙黑字寫著:重複內容通常不構成懲罰,但會進行版本正規化,只保留一個版本出現在搜尋結果(來源:Google Search Central《避免建立重複的內容》)。真正的風險在於你無法決定哪個版本勝出,Google 可能選到一個你想都沒想過的網址。舉例來說,一個首頁同時存在 www 與 non-www 兩個版本、而且只有 non-www 那邊被外部網站連結,最後 Google 收錄的可能是你根本沒在經營的那一個版本,GA 流量歸因跟著全錯亂。
要澄清一點:除非是大規模、惡意的抄襲與操控排名行為,才會觸發真正的演算法處理,那已經踩到黑帽 SEO 與白帽 SEO 的差異的紅線。日常網站主會遇到的技術性重複內容,距離懲罰很遠。比起擔心被罰,更該把焦點放在「主動告訴 Google 正本是哪個網址」,這也正是canonical 標籤的完整設定教學與Canonical URL 解決重複內容的完整指南存在的目的。被忽略的那幾個重複版本,等於辛苦累積的權重沒有歸屬到該去的地方,而把主導權拿回來靠的就是 canonical 與 301 兩個工具。
權重分散與檢索預算:重複頁面真正的成本
對網站主來說,重複頁面會把外部連結、點擊、互動訊號分散到多個網址上,導致單一頁面競爭力變薄;對 Google 來說,爬蟲把有限的檢索預算浪費在重複頁面上,降低對真正重要頁面的關注。這兩個代價加起來,比「排名掉一名」嚴重得多。
權重分散是最直觀的成本。假設你有十個內容近乎相同的頁面,本來該集中在同一份的 credit,被切成十份,任何一頁都難以競爭排名。如果你對反向連結與網域權重有概念,就知道外部連結指向哪個版本、權重就落在哪個版本;連結分散到十個重複網址,等於把好鋼用在十把刀上,沒有一把夠利。
這層代價之所以特別值得警惕,是因為反向連結本身就是稀缺資源。根據 Backlinko 分析 1,180 萬筆 Google 搜尋結果的研究,大約 95% 的頁面完全沒有任何反向連結,能拿到連結的頁面本就是少數(來源:Backlinko〈Search Engine Ranking: We Analyzed 11.8 Million Google Search Results〉 https://backlinko.com/search-engine-ranking 2025-04-14)。在這個前提下,若還讓外部連結因為重複版本而分散到好幾個網址上,等於把難得累積的權重稀釋掉,誰都吃不到完整份量。
同一份研究也顯示,Google 排名第 1 的結果平均擁有的反向連結數,是排名第 2 到第 10 結果的 3.8 倍(來源:Backlinko〈Search Engine Ranking: We Analyzed 11.8 Million Google Search Results〉 https://backlinko.com/search-engine-ranking 2025-04-14)。這個數字說明了「把權重集中到單一正本」有多關鍵:當你用 canonical 或 301 把重複版本收斂成一個網址,外部連結的訊號才會集中累積,正本才有本錢往第一名推進;放任版本分散,等於主動放棄這個 3.8 倍的優勢。Ahrefs 針對旗下索引中約 140 億個頁面的研究也指向同一個結論:96.55% 的頁面從 Google 拿不到任何自然流量,只有極少數頁面能擠進有流量的那一群(來源:〈Ahrefs — 96.55% of Content Gets No Traffic From Google. Here's How to Be in the Other 3.45% [New Research for 2023]〉〈https://ahrefs.com/blog/search-traffic-study/〉〈2023-12-01〉)。在這種分布下,一個頁面要從零流量爬到能見度,本就需要把所有排名訊號集中;重複內容恰好把訊號打散到多個版本,直接提高每個版本「拿不到流量」的機率。
檢索預算是另一個容易被忽略的成本。Google 爬蟲分配給每個網站的檢索時間是有限的,重複頁面會把這筆預算吃掉,排擠重要頁面被檢索與索引的機會。你可以用Google Search Console 的檢索統計資料觀察這個狀況,更完整的機制可參考檢索預算(crawl budget)的運作機制。對小型網站影響有限,但頁面數量一旦破萬,這件事就會變成真實的瓶頸。
判斷檢索預算是否已經被重複頁面吃掉,有兩個訊號值得盯著看。一是 GSC 檢索統計資料裡「每天檢索的網址數量」長期偏低,同時「檢索回應時間」偏高,代表爬蟲把時間花在低價值頁面上;二是新發布的重要頁面遲遲沒被索引,但站內一堆參數變體頁面卻頻繁被檢索,代表爬蟲把配額用錯地方。兩個訊號同時出現,就該優先處理參數與分頁類的重複版本,把檢索預算釋放出來給真正需要被收錄的頁面。
| 代價類型 | 對網站主的影響 | 對 Google 的影響 |
|---|---|---|
| 權重分散 | 外部連結、點擊訊號被瓜分,單頁競爭力變薄 | 難以判斷哪個版本為準 |
| 檢索預算浪費 | 重要頁面被檢索的機會被排擠 | 爬蟲時間耗在重複頁 |
| 數據失真 | 流量、轉換難以歸因 | (不直接影響) |
| 使用者體驗 | 站內一堆長相雷同的頁面令人困惑 | 搜尋結果品質下降 |
數據失真這點在實務上最傷。重複頁面會讓你在 GA、GSC 裡看到的流量與轉換難以歸因,經營判斷跟著失準。明明同一篇內容,流量卻分散在三、四個網址上,你以為某篇文章表現普通,其實是表現被攤薄了,這時去解讀網站跳出率與離開率的差別也會跟著失真。這四個成本加總,比單純「排名掉一名」更值得重視。
同網域重複內容:六種最常見的技術失誤類型
同一個網站裡最常見的重複內容有六大類型:內容重複上架、http 與 https 並存、www 與 non-www 並存、結尾斜線有無、網址大小寫未統一、以及無意義的網址參數。後五項幾乎都是網站技術設定失誤造成的,也是網站主最能動手處理的一塊。
第一類是非技術失誤:重複上架相同產品或文章,或為了衝頁數量而產生大量薄內容頁。這類問題出在內容策略,跟程式設定無關,本質上與內容農場那種低品質內容陷阱是同一條路。其餘五類則是工程問題,背後都牽涉到SEO 友善的網址結構寫法與HTTPS 與網站安全性的關係這些基礎設定:http 與 https 兩種協定版本同時可被連上、內容卻完全相同;www 與非 www 版本同時存在,需統一擇一再到 GSC 設定偏好網域;結尾斜線有無(/article/ vs /article)會被當成兩個頁面;大小寫沒統一時 /coffee 跟 /COFFEE 內容相同卻算兩個網址,建議一律小寫並自動轉向;分頁、篩選器、追蹤參數則會生出內容相同但網址不同的頁面,是電商與內容站的重災區。
這裡有個關鍵數字值得記下來:當 http/https、www/non-www、slash/non-slash 這三種設定同時失誤時,單一頁面理論上會衍生出 2×2×2 共 8 個重複版本。這不是嚇人的算法,而是 Google 對多重版本正規化的官方邏輯推導出來的最壞情況(來源:Google Search Central 對網址正規化的說明)。意思是同一份內容的權重與檢索預算,可能同時被瓜分成八份。
以 http/https 為例,如果你的站同時存在 http://example.com 跟 https://example.com,輸入 http 版本時應該自動轉址到 https,想搞懂兩者差別與升級流程可參考HTTP 換 HTTPS 的完整攻略。www/non-www 同理,兩者沒有絕對好壞,重點是擇一並在 GSC 設定偏好網域,至於到底該選哪一邊,www 與 non-www 網址差異全解析有清楚的判斷方法。slash/non-slash 則要注意結尾斜線,例如 /article/ 跟 /article 在沒有統一的情況下會被當成兩個頁面。
大小寫問題比較少見,但一旦中招就很麻煩。/coffee 跟 /COFFEE 對 Google 是不同網址,內容卻相同,於是又多一份重複。網址參數則是電商與內容站的重災區,分頁、篩選器、追蹤碼都會生出內容相同但網址不同的頁面,這部分的成因可以參考網址查詢參數如何產生重複頁面。如果你還在懷疑自己網站有沒有這些問題,後面會講怎麼用工具把它們抓出來。
分類篩選與分頁:電商重複內容最難清的兩種
六大類型裡,分類篩選與分頁是最棘手的,因為它們是「網站功能本身需要」、卻又必然產生大量重複網址。以一個服飾分類頁為例,使用者可以依顏色、尺寸、價格、品牌排列組合篩選,每一次組合都會產生一個新網址,但呈現的商品清單高度重疊。當篩選維度有五種、每種各有五個選項時,理論上能組合出數百個網址,其中絕大多數只差幾件商品的排序。這類頁面若全數進入索引,檢索預算很快會被吃光,權重也會被切成數百份。
處理分類篩選頁有幾種常見做法,各有適用情境。第一種是讓篩選結果透過 URL 參數產生(例如 ?color=red),再搭配 GSC 的網址參數工具或 robots.txt 規則,告訴 Google 哪些參數會改變內容、哪些只是排序變化。第二種是對「不改變商品集合、只改變排序」的參數直接加上 noindex,或用 canonical 指回未篩選的分類首頁。第三種適用於篩選結果有獨立搜尋需求的情境:保留頁面,但在主體內容裡補上該篩選組合的專屬描述文字,讓每個有意義的篩選頁都有獨特內容,藉此脫離重複判定。三種做法的選擇關鍵在於「這個篩選組合有沒有人搜尋」:有人搜尋就值得用第三種做差異化,沒人搜尋就用前兩種收斂掉。
分頁(pagination)則是另一個獨立子題。常見的 ?page=2、?page=3 分頁網址,內容其實是同一系列文章或商品清單的延續,Google 會把它們視為相關頁面,但若處理不當仍會造成權重分散。穩當的做法是用 rel="next" 與 rel="prev"(雖然 Google 已不再將其作為強訊號,但部分情境仍有參考價值),或更直接地讓每個分頁的 canonical 指向自己,再透過內部連結把權重串起來。無論選哪一種,核心原則一致:不要讓多個分頁互相爭奪同一組關鍵字,否則會與關鍵字蠶食的修復策略裡描述的問題疊加,更難收拾。
跨網域重複內容:轉載與多平台發布的陷阱
會。只要同一篇內容出現在多個不同網域,例如原作者網站、內容平台、新聞媒體,從 Google 的角度看就是多份重複內容,同樣會面臨版本選擇與權重分散的問題。跨網域重複內容常見於文章轉載、內容聯播、同時經營多個部落格平台。
跟同網域不同的是,跨網域的版本選擇更難掌控。Google 會自行判斷「原出處」,但結果未必如你所願,它可能把權重歸給轉載站而不是原作者網站。原創者辛苦寫的內容被大型媒體轉載後搶走排名,是相當常見的結果。想理解 Google 怎麼決定原出處,可以延伸閱讀Google 搜尋引擎的運作原理與資訊增量與內容差異化。
處理方向很明確:要求轉載方在頁面上加上回連原站的 canonical,或至少放上明確出處與連結。比起同網域,跨網域更需要事前約定授權與連結規則,事後補救的成本高得多。完整的轉載處理邏輯,建議直接讀文章轉載對 SEO 的影響解析,裡面把授權、連結、canonical 三件事講得很細。文章轉載、內容聯播、同時經營多個部落格平台,都是最常見的跨網域情境;風險一致在於 Google 自行判斷原出處、可能把權重歸給轉載站,因此事前約定授權與連結規則遠比事後補救省事。
有一個常被問到的延伸問題:把同一篇文章同步發到 Medium、方格子、痞客邦這類平台,算不算跨網域重複?答案是會。這些平台的網域與你的自架站不同,Google 一樣會在多個版本之間做選擇。大型平台的網域權重通常高於新站,因此 Google 很容易把排名給平台版本,而把你自架站的原版壓在後面。若你希望自架站成為版本選擇的贏家,最務實的做法是讓自架站版本先上線、被索引、並累積少量外部連結後,再把內容授權到其他平台,並要求平台版本放上回連原站的連結;同步上線又毫無回連,幾乎等於把排名讓給對方。
如何解決重複內容:canonical、301 轉址與從根本預防
判斷標準只有一個:那個重複頁面還要不要被使用者看到。若完全不該存在,用 301 永久轉址到正本、順便傳遞權重;若使用者仍需瀏覽該頁(例如同款商品的不同顏色),就用 canonical 告訴 Google 以哪個網址為準。根本解法則是從網站設定與內容策略兩端預防。
301 轉址等於永久搬家,適用於「沒人需要再看到該頁」的情況。它可以把舊頁面的權重傳遞到新網址,告訴搜尋引擎「我永久搬家了,請以新地址為主」(來源:Google Search Central《透過 301 重新導向變更網頁網址》)。canonical 標籤則是保留頁面但指定標準網址,適用於「內容相近但各有存在意義」的頁面,例如同款衣服的紅、黃、綠三個顏色頁(來源:Google 官方 canonical 標準網址說明)。
| 比較項目 | 301 轉址 | canonical 標籤 |
|---|---|---|
| 使用者還看得到該頁? | 看不到(被轉走) | 看得到(頁面保留) |
| 權重傳遞 | 永久傳遞到新網址 | 指定標準網址為準 |
| 適用情境 | 沒人需要再看到的頁面 | 內容相近但各有意義(如顏色尺寸) |
| 選錯的代價 | 該保留卻用 301,使用者看不到頁面 | 該轉址卻用 canonical,權重傳遞打折 |
選錯工具的代價很實際:該轉址卻用 canonical,權重傳遞效率打折;該保留卻用 301,使用者會看不到頁面。同款商品的不同顏色就是經典案例,把黃色、綠色頁硬轉到紅色頁,使用者就再也選不到其他顏色,這時該做的是用 canonical 把三個顏色頁指向同一個標準網址。
還有一個實務細節值得記住:301 並非立即把權重「全部轉移」。Google 處理 301 需要時間,期間舊網址與新網址可能短暫同時存在於索引中,權重是逐步遞移的。因此對流量大的頁面做 301 之後,建議用 GSC 網址檢查工具追蹤新網址的收錄狀態,確認舊網址真的從索引消失,才算搬遷完成。相關的完整操作可以對照noindex 標籤的作用與效果與robots.txt 與 noindex 的差別與誤用,理解 301 與 noindex 各自的適用邊界。
三種情境:別急著套 canonical
canonical 看似萬靈丹,卻有三種情境不該貿然使用,套錯反而製造新問題。
- 分頁之間互相指向:把
?page=2的 canonical 指向第 1 頁,會讓 Google 把後續分頁的內容當作不存在,等於強制只索引第 1 頁,後面幾頁的商品或文章就失去被收錄的機會。分頁的標準做法是讓每一頁的 canonical 指向自己,再用內部連結把權重串起來。 - 跨語系版本互指:把英文版頁面的 canonical 指向中文版,會讓英文版在 Google 眼中消失,多語系站點應該用 hreflang 標示語系關係,而非用 canonical 收斂成單一語系,否則會破壞多語系網站的 hreflang 設計。
- 內容差異夠大、本應各自排名的頁面:若兩個頁面主題相近但目標關鍵字不同,硬用 canonical 合併等於放棄其中一個關鍵字的排名機會,這時該做的是補強各自的差異化內容,讓兩頁都能獨立競爭,而不是用 canonical 收斂。
判斷「該不該用 canonical」有一條簡單的測試題:如果把這兩個頁面合併成同一個網址,使用者會不會覺得資訊變少?答案為是,代表兩個頁面各有存在價值,不該用 canonical 合併;答案為否,內容本來就重複,才適合用 canonical 或 301 收斂。這條測試題能把大部分誤判擋下來。
從根本預防,才是治本之道。上線前就統一 http/https、www/non-www、slash 規則、網址小寫、參數管理,把這些設定在網站建置階段一次到位。相關的整體規劃可以參考SEO 友善的網站架構設計與robots.txt 的功能與設定。內容策略面也要同步治理:別為了衝量製造薄內容頁,相似的頁面應精煉與彙整成一份高含金量內容,這跟E-E-A-T 高品質內容原則的方向一致。
- 盤點:逐一列出所有疑似重複的網址版本。
- 判斷:每個重複頁是否仍需被使用者看到。
- 分流處理:不需要存在 → 301 轉址到正本;仍需瀏覽 → canonical 指定標準網址;完全無意義 → 下架。
- 根本預防:統一協定、網域、斜線、大小寫、參數規則。
這裡要特別提醒一個容易被忽略的配套:當你決定某個頁面不該被索引,除了 301 之外,還有 noindex 這條路。兩者的差別與各自適用情境,可以對照noindex 標籤的作用與效果與robots.txt 與 noindex 的差別與誤用。處理完重複版本後,記得更新 XML Sitemap,並用 GSC 網址檢查工具確認版本狀態真的生效;若確認過網頁索引狀態後發現版本還是沒收錄,可以回頭檢查是不是不被索引的相關設定誤開了。
如何發現網站中的重複內容?工具與檢查流程
先用同網域六大類型逐一檢查網址是否同時存在多個版本,再搭配爬蟲與健檢工具收斂方向:用 Screaming Frog 比對重複的 title 與 h1、用 Ahrefs Site Audit 的重複內容報表輔助判讀,最後仍需人工逐頁抽檢確認。工具只能收斂方向,最終正確答案仰賴人工抽檢與逐頁分析。
手動檢查是第一步,也是最直接的一步。針對 http/https、www/non-www、slash、大小寫、參數逐一輸入測試,看看是不是同時存在多個版本。這部分其實不難,難在你得系統性地把每個維度都測過一遍,不能漏。如果你對網址組成還不熟,拆解網址的各個組成元件與網址路徑的組成與影響會幫你建立檢查時需要的直覺。
| 工具 | 主要用途 | 限制 |
|---|---|---|
| 手動檢查 | 逐維度測試 http/https、www、slash、大小寫、參數 | 頁面多時費時 |
| Screaming Frog | 以 title、h1、meta description 重複做快速篩選 | 訊號非絕對,需人工判讀 |
| Ahrefs Site Audit | 列出被判定為重複的頁面清單 | 未必完整,需人工判讀 |
| Google Search Console | 觀察檢索統計與索引報表中的異常網址 | 訊號較間接 |
Screaming Frog 能在爬完站後直接比對 title、h1、meta description 的重複情況。一個頁面的 title 或 h1 重複,內文很可能也重複,這是一個很好的快速篩選訊號,詳細操作可參考Screaming Frog 爬蟲工具教學。Ahrefs 的 Site Audit 則可以直接列出被判定為重複的頁面清單,但它的偵測未必完整跟精確,一樣需要人工判讀,相關功能介紹見Ahrefs 網站健檢功能介紹。
Google Search Console 也不該漏掉。觀察GSC 網頁索引報表與檢索統計資料,留意異常的重複網址訊息,往往能發現工具沒抓到的問題;若你對整個工具還不熟,Google Search Console 完整使用指南是很好的入門起點。沒有任何一個工具能給你 100% 正確的答案,它們只是幫你把範圍收斂到可控的大小,真正的判斷還是得靠人;想一次看齊所有可用工具,SEO 工具與軟體總整理有完整的清單。
以一個商品與文章合計約數千到上萬個網址的中型電商或內容站為例,這類站在還沒統一協定、網域與斜線規則前,最常見的狀況是一次完整爬蟲跑完,Screaming Frog 的重複 title 報表會冒出約數百到上千筆疑似重複,其中很大一部分回推回去都是 http/https、www/non-www、slash 有無三個維度同時失誤衍生出來的版本,真正屬於內容層級重複的反而只占少數。Ahrefs Site Audit 在這類站的總網址數對應的「重複內容」佔比,依典型表現幅度大約落在約 15% 到 30% 之間,數字高低取決於參數與分頁是否已被收斂;而 GSC 檢索統計資料裡,往往會看到每天檢索的網址數被一堆參數變體吃掉,重要新頁反而排不進索引佇列。要誠實點出這類檢測的限制:工具列出的重複清單從來不是最終答案,Screaming Frog 對內容指紋的判讀偏寬鬆,Ahrefs 則可能漏掉只差一小段文字的近似頁,最後仍得靠人工逐頁抽檢才能定案。決策上的重點不在於把報表裡每一筆都清掉,而是先依「這個網址維度要不要存在」做分流,把協定、網域、斜線三類用 301 一次收斂,再把分頁與篩選參數交給 GSC 網址參數工具或 canonical 處理,能讓後續人工判讀的工作量從數百筆降到數十筆,這才是這套工具流程真正省力的地方。
重複內容檢測的決策矩陣:六種類型對照四種工具
把前面的六種重複類型與四種檢查工具擺進同一張矩陣,可以看出每種類型最適合用哪個工具來抓。這張矩陣的價值在於「對症下藥」:用錯工具會把時間浪費在抓不到的類型上。矩陣欄位的判讀原則是「主工具」代表第一優先,「輔助」代表搭配使用,「不適用」代表該工具在這類型上訊號太弱。
| 重複類型 | 手動檢查 | Screaming Frog | Ahrefs Site Audit | GSC |
|---|---|---|---|---|
| 內容重複上架 | 輔助 | 主工具(比對 title/h1) | 主工具(內容指紋) | 輔助 |
| http/https 並存 | 主工具 | 輔助 | 輔助 | 輔助 |
| www/non-www 並存 | 主工具 | 輔助 | 輔助 | 輔助 |
| slash 有無 | 主工具 | 輔助 | 不適用 | 輔助 |
| 大小寫未統一 | 主工具 | 輔助 | 不適用 | 不適用 |
| 網址參數(分頁/篩選) | 輔助 | 主工具(抓參數網址) | 主工具 | 主工具(參數報表) |
從這張矩陣可以看出一個清楚的重點:協定、網域、斜線、大小寫這四類「網址層級」的重複,手動檢查往往比任何工具都快,因為你只需要在瀏覽器輸入幾個變體就能確認;而參數、分頁、內容指紋這類「頁面層級」的重複,才需要動用爬蟲與健檢工具。把檢查流程分成「先手動掃網址層級、再用工具掃頁面層級」兩段,效率最高,也最不容易漏。
三個最容易踩的處理錯誤,與一份照著做的清單
實際動手處理時,最常見的錯誤可歸納成幾條線索:把該用 canonical 的頁面硬轉 301、忘了同時處理 www 與 https 兩個維度導致重複版本清不完、以及誤以為「頁面越多越好」而用薄內容稀釋網站體質。
只處理單一維度是新手最常踩的坑。例如你只統一了 www,卻忽略 https 或 slash,結果重複版本依舊存在,前面的工夫等於白做。這類失誤的根源是沒把「網址層級重複」當成一組同時存在的維度來盤點,卻一個一個零散修補;正確做法是上線前就把協定、網域、斜線、大小寫一次統一,事後東修一個、西補一個只會越修越亂。
另一種常見失誤是濫用 canonical,把不該合併的頁面硬指到首頁,反而稀釋了主題訊號,讓 Google 搞不清楚這個網站到底在講什麼,這會牽動Entity SEO 與內容主題去重的表現,也常與關鍵字蠶食的修復策略一起出現。更糟的是用 301 把使用者還需要瀏覽的頁面轉走,造成內容憑空消失,三色商品頁就是最明顯的例子,把黃色、綠色頁轉到紅色頁,使用者就再也選不到其他顏色。
正確的處理順序應該是:先盤點所有重複網址 → 判斷每個重複頁是否仍需存在 → 分別套用 301、canonical 或下架 → 最後從內容品質與網址架構兩端做長期治理。長期來看,把內部連結與網站架構與內容品質一起治理,重複內容才會真的「清得完」。
重複內容處理上線前的自檢清單
把前面散落的檢查點彙整成一份可以照著勾的自檢清單,方便在網站上線、改版、或定期健檢時直接使用。清單分成三層:網址層級、頁面層級、內容策略層級,每層各自獨立,任何一層沒過都會留下重複版本。
- 網址層級:http 是否一律 301 轉向 https?www 與 non-www 是否擇一並在 GSC 設定偏好網域?結尾斜線規則是否全站統一?網址大小寫是否一律小寫並自動轉向?
- 頁面層級:分頁是否每一頁的 canonical 指向自己?分類篩選參數是否在 GSC 或 robots.txt 做了處理?追蹤碼(utm 等)是否被排除在索引之外?同款商品不同顏色是否用 canonical 指向標準網址?
- 內容策略層級:是否仍有大量只差幾句話的薄內容頁?相似主題是否彙整成單一高品質頁面?轉載出去的內容是否要求對方加上回連原站的連結?是否定期用爬蟲工具回頭掃描新出現的重複版本?
- 驗證層級:處理後是否用 GSC 網址檢查工具確認 canonical 或 301 真的生效?XML Sitemap 是否已更新只保留正本網址?檢索統計資料是否顯示重複網址的檢索次數下降?
回顧整件事的核心:重複內容真正的代價在於版本選擇權不在你手上、權重被瓜分、檢索預算被浪費,與 Google 懲罰無關。處理的本質是「讓 Google 毫不猶豫地知道哪個網址才是正本」,目標是收斂版本,並非要刪光所有相似頁面;掌握這個觀念,canonical 跟 301 什麼時候用,自然就有答案。如果你正在規劃整體的 SEO 策略,這件事應該跟關鍵字研究、搜尋意圖、長尾關鍵字與內容佈局一起放在同一張地圖上思考,畢竟處理重複內容的根本目的,就是把 Google 排名往上推進。
把視野拉大一點,重複內容其實只是整體 SEO 工程裡的一環。它跟 Title Tag、結構化資料、Open Graph 這些頁面層的優化是並列關係,而這些細節全部收攏在站內 SEO 終極攻略的框架底下,任何一環漏掉都會讓排名效益打折。碰到技術性較高的情境,例如JavaScript 網站的爬蟲與收錄或多語系站點要做hreflang 設計,重複內容的檢查邏輯一樣適用,只是維度更多。網站改版或搬家時最容易連帶生出重複版本,風險控制可參考網站搬家與改版的 SEO 風險;內容上線後也不是一勞永逸,建議排進定期回頭檢查的節奏,看有沒有新的重複版本悄悄冒出來。
最後補幾個會被忽略的細節。網址要不要用中文、會不會影響重複內容判斷,可以對照中文網址與英文網址的選擇;想在 SERP 上看清對手怎麼排,搜尋結果頁(SERP)元素介紹是基本功。效能面也別忘了網頁速度與網站效能優化跟網站使用體驗核心指標 CWV,它們跟重複內容一樣,都是默默拖累排名的隱形殺手。連結類型的全貌,則可以一次看懂四大類型連結的全面解析。
重複內容常見問題 FAQ
產品只有顏色不同算重複內容嗎?
有可能。Google 對重複內容的認定比想像中嚴格,只差顏色、尺寸的頁面也可能被判定為重複,這時適合用 canonical 把多個顏色頁指向同一個標準網址,而不是用 301 把使用者還需要瀏覽的頁面轉走。
如何用工具找出網站的重複內容?
用 Screaming Frog 比對重複的 title 與 h1,用 Ahrefs Site Audit 列出重複頁面清單,再用 GSC 觀察索引異常。工具只能收斂方向,仍需人工逐頁確認,且別把報表裡每一筆都當成最終判決。
分頁的 canonical 要指向第 1 頁嗎?
不建議。分頁若全部 canonical 指向第 1 頁,會讓後續分頁的內容在 Google 眼中消失,後幾頁的商品或文章就失去被收錄的機會。穩當的做法是讓每一頁的 canonical 指向自己,再用內部連結把權重串起來。
同一篇文章發到 Medium 或其他平台會害到自己網站嗎?
有可能。大型平台的網域權重通常較高,Google 可能選擇把排名給平台版本。建議讓自架站版本先上線並被索引,再授權到其他平台,同時要求平台版本放上回連原站的連結。
協定、網域、斜線同時失誤會衍生幾個重複版本?
理論上單一頁面最多可衍生 2×2×2 共 8 個重複版本。這是 Google 對多重版本正規化的官方邏輯推導出的最壞情況,意思是同一份內容的權重與檢索預算可能同時被瓜分成八份。