SEO ✦ 21 天系列 · Day 5 SEO 基礎 📅 2026-05-17 ⏱ 6 分鐘閱讀 ✍️ 文/ Rhoda 羅達

技術 SEO 必做 5 件事:sitemap、robots、canonical、HTTPS、CWV

Q: 沒有 sitemap.xml,Google 也會收錄我的網站嗎?

會,但收錄速度會慢很多,且可能漏掉沒被內鏈到的頁。對小型網站影響不大,對大型網站(> 100 頁)影響很大,務必做 sitemap 並提交到 GSC。

📌 讀完這篇你會學到

技術 SEO 沒做 = 寫再好都沒人看到,5 件事的優先順序
robots.txt 的常見災難:不小心把整站擋掉
Canonical 標籤的正確設定方式與最常見錯誤
HTTPS 為什麼 2018 年起是必要、不是加分
Core Web Vitals 3 個指標的目標值與優化方向

技術 SEO 是「讓爬蟲根本能找到你」的基礎建設。下面這 5 件事沒做,後面內容寫再好都沒人看到。

重要的是,這 5 件事大部分是「設定好就不用一直改」的一次性工作,而且有先後順序:步驟 1 先做 sitemap.xml、步驟 2 設 robots.txt、步驟 3 上 canonical、步驟 4 開 HTTPS、步驟 5 顧 Core Web Vitals。今天花一個下午把它們做完,之後就能專心寫內容。

1. sitemap.xml 怎麼做?

Sitemap 是一個 XML 檔,告訴搜尋引擎「你網站上有哪些頁、最後更新時間是什麼」。沒有 sitemap,Google 也會自己爬,但有 sitemap 收錄速度更快、更完整。

放在網站根目錄:https://yoursite.com/sitemap.xml
列出所有想被收錄的 URL + <lastmod>
到 Google Search Console 提交一次
每次新增/更新文章後,sitemap 也要重新生成

大多 CMS(WordPress、Hugo、Next.js)都有外掛或內建可以自動產生。手寫的話,結構大致:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/blog/seo-basics</loc>
    <lastmod>2026-05-13</lastmod>
  </url>
</urlset>

2. robots.txt 怎麼設?

Robots.txt 是放在網站根目錄的純文字檔,用兩行語法控制爬蟲行為:User-agent: 指定爬蟲名稱,Disallow: 或 Allow: 指定路徑。

⚠️ 真實災難案例

我見過站長把整個 /blog/ 路徑 Disallow,然後納悶為什麼新文章都沒被收錄。也有人直接寫 Disallow: / 把整站擋掉,結果三個月後流量歸零才發現。

基本範本:

User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

順便把 AI 爬蟲也開放(Day 10 會深入講):

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

3. Canonical 標籤怎麼設?

Canonical 是加在每頁 <head> 的一行 <link rel="canonical"> 標籤,告訴 Google「同一內容的多個 URL 中,哪個是正版」。設對了,重複版本的網址權重會集中到正版 URL;設錯(例如全部指向首頁)內頁會完全不被收錄。常見的重複內容場景有三種:

網址有 ?utm_source=... 參數,但實際內容相同
同樣文章有 www. 和非 www. 兩版
同樣產品有 desktop 和 mobile 兩版 URL

正確做法:每頁 <head> 加一個 canonical:

<link rel="canonical" href="https://yoursite.com/blog/seo-basics">

常見錯誤:所有頁面 canonical 都指向首頁(等於跟 Google 說「我所有頁都是同一頁」,內頁完全不被收錄)。

4. HTTPS 為什麼是必要?

Google 2018 年起把 HTTPS 納入排名訊號,且 Chrome 把非 HTTPS 標為「不安全」。沒有 HTTPS 不只是排名問題,是信任問題 —— 使用者看到「不安全」警告會直接離開。

用 Let's Encrypt 免費憑證(Cloudflare、Vercel、Netlify 都內建)
HTTP 流量 301 重導到 HTTPS
檢查 mixed content(HTTPS 頁面載入 HTTP 資源會被擋)

5. Core Web Vitals 怎麼優化?

Core Web Vitals(CWV)是 Google 量測頁面體驗的三個指標:LCP 看載入速度(目標 < 2.5 秒)、INP 看互動反應(目標 < 200ms)、CLS 看版面穩定度(目標 < 0.1)。三個指標的定義與常見問題如下:

LCP(Largest Contentful Paint):頁面最大區塊載入完成的時間。目標 < 2.5 秒。常見問題:首屏大圖未壓縮、Webfont 阻塞。
INP(Interaction to Next Paint):從使用者互動到下一次畫面更新的時間。目標 < 200ms。常見問題:JS 主執行緒阻塞、第三方 script 太多。
CLS(Cumulative Layout Shift):版面位移分數。目標 < 0.1。常見問題:圖片沒設 width/height、字型載入後版面跳動。

技術 SEO 怎麼自我健檢?

技術 SEO 的自我健檢用 4 個工具就夠:Google Search Console(免費必裝,索引與 CWV 全有)、PageSpeed Insights(單頁速度測試)、Screaming Frog SEO Spider(全站爬蟲模擬,免費版可爬 500 URL)、Lighthouse(Chrome DevTools 內建)。全部免費或有免費版,足以驗證本文 5 件事有沒有做對:

Google Search Console:免費必裝,索引、CWV、查詢全有
PageSpeed Insights:單頁速度測試 + 具體優化建議
Screaming Frog SEO Spider:全站爬蟲模擬(免費版可爬 500 URL)
Lighthouse:Chrome DevTools 內建,可在本機跑

常見問答(FAQ)

問:沒有 sitemap.xml,Google 也會收錄我的網站嗎?

答:會,但收錄速度會慢很多,且可能漏掉沒被內鏈到的頁。對小型網站影響不大,對大型網站(> 100 頁)影響很大,務必做 sitemap 並提交到 GSC。

問:Robots.txt 跟 noindex 差在哪?

答:robots.txt 告訴爬蟲「不要爬」(連抓都不抓),noindex 告訴爬蟲「可以爬但不要收錄到索引」。兩者用途不同:不想被爬到的後台用 robots.txt,公開但不想出現在搜尋結果的頁用 noindex。

問:Canonical 寫錯會怎樣?

答:最嚴重的後果是「整站只有首頁被收錄,內頁完全進不了搜尋結果」。我看過有 CMS 預設把所有頁 canonical 指向首頁,導致網站全站搜尋曝光斷崖式下滑。每篇文章上線後務必驗證 canonical。

問:CWV 沒達標會直接掉排名嗎?

答:不會立刻、戲劇性地掉,但長期會慢慢被超越。Google 公開表示 CWV 是排名訊號之一,但權重不大。對使用者體驗的影響更直接 —— 速度慢的網站跳出率高,間接影響排名。

關鍵名詞速查

sitemap.xml: 列出網站所有想被收錄 URL 的 XML 檔,提交到 GSC 加速收錄。
robots.txt: 放在網站根目錄的純文字檔,告訴爬蟲哪些路徑可爬。
Canonical: 告訴 Google「這頁的正版 URL 是哪個」,處理重複內容。
noindex: Meta 標籤,告訴爬蟲「可以爬但不要收錄到搜尋結果」。
Mixed content: HTTPS 頁面載入 HTTP 資源,瀏覽器會擋下並警告。