技術 SEO 必做 5 件事:sitemap、robots、canonical、HTTPS、CWV

📌 讀完這篇你會學到
  • 技術 SEO 沒做 = 寫再好都沒人看到,5 件事的優先順序
  • robots.txt 的常見災難:不小心把整站擋掉
  • Canonical 標籤的正確設定方式與最常見錯誤
  • HTTPS 為什麼 2018 年起是必要、不是加分
  • Core Web Vitals 3 個指標的目標值與優化方向

技術 SEO 是「讓爬蟲根本能找到你」的基礎建設。下面這 5 件事沒做,後面內容寫再好都沒人看到。

重要的是,這 5 件事大部分是「設定好就不用一直改」的一次性工作。今天花一個下午把它們做完,之後就能專心寫內容。

1. sitemap.xml — 列出所有想被收錄的 URL

Sitemap 是一個 XML 檔,告訴搜尋引擎「你網站上有哪些頁、最後更新時間是什麼」。沒有 sitemap,Google 也會自己爬,但有 sitemap 收錄速度更快、更完整。

  • 放在網站根目錄:https://yoursite.com/sitemap.xml
  • 列出所有想被收錄的 URL + <lastmod>
  • Google Search Console 提交一次
  • 每次新增/更新文章後,sitemap 也要重新生成

大多 CMS(WordPress、Hugo、Next.js)都有外掛或內建可以自動產生。手寫的話,結構大致:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/blog/seo-basics</loc>
    <lastmod>2026-05-13</lastmod>
  </url>
</urlset>

2. robots.txt — 告訴爬蟲哪些路徑能爬

Robots.txt 是放在網站根目錄的純文字檔,用兩行語法控制爬蟲行為:User-agent: 指定爬蟲名稱,Disallow:Allow: 指定路徑。

⚠️ 真實災難案例
我見過站長把整個 /blog/ 路徑 Disallow,然後納悶為什麼新文章都沒被收錄。也有人直接寫 Disallow: / 把整站擋掉,結果三個月後流量歸零才發現。

基本範本:

User-agent: *
Disallow: /admin/
Disallow: /api/

Sitemap: https://yoursite.com/sitemap.xml

順便把 AI 爬蟲也開放(Day 10 會深入講):

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

3. Canonical 標籤 — 告訴 Google 哪個是「正版」

Canonical 解決「同一內容多個 URL」的問題。常見場景:

  • 網址有 ?utm_source=... 參數,但實際內容相同
  • 同樣文章有 www. 和非 www. 兩版
  • 同樣產品有 desktop 和 mobile 兩版 URL

正確做法:每頁 <head> 加一個 canonical:

<link rel="canonical" href="https://yoursite.com/blog/seo-basics">

常見錯誤:所有頁面 canonical 都指向首頁(等於跟 Google 說「我所有頁都是同一頁」,內頁完全不被收錄)。

4. HTTPS — 2018 年起是必要

Google 2018 年起把 HTTPS 納入排名訊號,且 Chrome 把非 HTTPS 標為「不安全」。沒有 HTTPS 不只是排名問題,是信任問題 —— 使用者看到「不安全」警告會直接離開。

  • Let's Encrypt 免費憑證(Cloudflare、Vercel、Netlify 都內建)
  • HTTP 流量 301 重導到 HTTPS
  • 檢查 mixed content(HTTPS 頁面載入 HTTP 資源會被擋)

5. Core Web Vitals — 速度與穩定度

CWV 三個指標:

  • LCP(Largest Contentful Paint):頁面最大區塊載入完成的時間。目標 < 2.5 秒。常見問題:首屏大圖未壓縮、Webfont 阻塞。
  • INP(Interaction to Next Paint):從使用者互動到下一次畫面更新的時間。目標 < 200ms。常見問題:JS 主執行緒阻塞、第三方 script 太多。
  • CLS(Cumulative Layout Shift):版面位移分數。目標 < 0.1。常見問題:圖片沒設 width/height、字型載入後版面跳動。

自我健檢工具

  • Google Search Console:免費必裝,索引、CWV、查詢全有
  • PageSpeed Insights:單頁速度測試 + 具體優化建議
  • Screaming Frog SEO Spider:全站爬蟲模擬(免費版可爬 500 URL)
  • Lighthouse:Chrome DevTools 內建,可在本機跑

常見問答

沒有 sitemap.xml,Google 也會收錄我的網站嗎?

會,但收錄速度會慢很多,且可能漏掉沒被內鏈到的頁。對小型網站影響不大,對大型網站(> 100 頁)影響很大,務必做 sitemap 並提交到 GSC。

Robots.txt 跟 noindex 差在哪?

robots.txt 告訴爬蟲「不要爬」(連抓都不抓),noindex 告訴爬蟲「可以爬但不要收錄到索引」。兩者用途不同:不想被爬到的後台用 robots.txt,公開但不想出現在搜尋結果的頁用 noindex。

Canonical 寫錯會怎樣?

最嚴重的後果是「整站只有首頁被收錄,內頁完全進不了搜尋結果」。我看過有 CMS 預設把所有頁 canonical 指向首頁,導致網站全站搜尋曝光斷崖式下滑。每篇文章上線後務必驗證 canonical。

CWV 沒達標會直接掉排名嗎?

不會立刻、戲劇性地掉,但長期會慢慢被超越。Google 公開表示 CWV 是排名訊號之一,但權重不大。對使用者體驗的影響更直接 —— 速度慢的網站跳出率高,間接影響排名。

關鍵名詞速查

sitemap.xml
列出網站所有想被收錄 URL 的 XML 檔,提交到 GSC 加速收錄。
robots.txt
放在網站根目錄的純文字檔,告訴爬蟲哪些路徑可爬。
Canonical
告訴 Google「這頁的正版 URL 是哪個」,處理重複內容。
noindex
Meta 標籤,告訴爬蟲「可以爬但不要收錄到搜尋結果」。
Mixed content
HTTPS 頁面載入 HTTP 資源,瀏覽器會擋下並警告。

延伸閱讀

想看自己網站的 SEO/GEO/AEO 分數?

本工具同時量測三大維度,18 個子指標完整拆解。免費試用。

🚀 免費分析