技術 SEO 必做 5 件事:sitemap、robots、canonical、HTTPS、CWV
- 技術 SEO 沒做 = 寫再好都沒人看到,5 件事的優先順序
- robots.txt 的常見災難:不小心把整站擋掉
- Canonical 標籤的正確設定方式與最常見錯誤
- HTTPS 為什麼 2018 年起是必要、不是加分
- Core Web Vitals 3 個指標的目標值與優化方向
技術 SEO 是「讓爬蟲根本能找到你」的基礎建設。下面這 5 件事沒做,後面內容寫再好都沒人看到。
重要的是,這 5 件事大部分是「設定好就不用一直改」的一次性工作。今天花一個下午把它們做完,之後就能專心寫內容。
1. sitemap.xml — 列出所有想被收錄的 URL
Sitemap 是一個 XML 檔,告訴搜尋引擎「你網站上有哪些頁、最後更新時間是什麼」。沒有 sitemap,Google 也會自己爬,但有 sitemap 收錄速度更快、更完整。
- 放在網站根目錄:
https://yoursite.com/sitemap.xml - 列出所有想被收錄的 URL +
<lastmod> - 到 Google Search Console 提交一次
- 每次新增/更新文章後,sitemap 也要重新生成
大多 CMS(WordPress、Hugo、Next.js)都有外掛或內建可以自動產生。手寫的話,結構大致:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://yoursite.com/blog/seo-basics</loc>
<lastmod>2026-05-13</lastmod>
</url>
</urlset>
2. robots.txt — 告訴爬蟲哪些路徑能爬
Robots.txt 是放在網站根目錄的純文字檔,用兩行語法控制爬蟲行為:User-agent: 指定爬蟲名稱,Disallow: 或 Allow: 指定路徑。
/blog/ 路徑 Disallow,然後納悶為什麼新文章都沒被收錄。也有人直接寫 Disallow: / 把整站擋掉,結果三個月後流量歸零才發現。
基本範本:
User-agent: *
Disallow: /admin/
Disallow: /api/
Sitemap: https://yoursite.com/sitemap.xml
順便把 AI 爬蟲也開放(Day 10 會深入講):
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
3. Canonical 標籤 — 告訴 Google 哪個是「正版」
Canonical 解決「同一內容多個 URL」的問題。常見場景:
- 網址有
?utm_source=...參數,但實際內容相同 - 同樣文章有
www.和非www.兩版 - 同樣產品有 desktop 和 mobile 兩版 URL
正確做法:每頁 <head> 加一個 canonical:
<link rel="canonical" href="https://yoursite.com/blog/seo-basics">
常見錯誤:所有頁面 canonical 都指向首頁(等於跟 Google 說「我所有頁都是同一頁」,內頁完全不被收錄)。
4. HTTPS — 2018 年起是必要
Google 2018 年起把 HTTPS 納入排名訊號,且 Chrome 把非 HTTPS 標為「不安全」。沒有 HTTPS 不只是排名問題,是信任問題 —— 使用者看到「不安全」警告會直接離開。
- 用 Let's Encrypt 免費憑證(Cloudflare、Vercel、Netlify 都內建)
- HTTP 流量 301 重導到 HTTPS
- 檢查 mixed content(HTTPS 頁面載入 HTTP 資源會被擋)
5. Core Web Vitals — 速度與穩定度
CWV 三個指標:
- LCP(Largest Contentful Paint):頁面最大區塊載入完成的時間。目標 < 2.5 秒。常見問題:首屏大圖未壓縮、Webfont 阻塞。
- INP(Interaction to Next Paint):從使用者互動到下一次畫面更新的時間。目標 < 200ms。常見問題:JS 主執行緒阻塞、第三方 script 太多。
- CLS(Cumulative Layout Shift):版面位移分數。目標 < 0.1。常見問題:圖片沒設 width/height、字型載入後版面跳動。
自我健檢工具
- Google Search Console:免費必裝,索引、CWV、查詢全有
- PageSpeed Insights:單頁速度測試 + 具體優化建議
- Screaming Frog SEO Spider:全站爬蟲模擬(免費版可爬 500 URL)
- Lighthouse:Chrome DevTools 內建,可在本機跑
常見問答
沒有 sitemap.xml,Google 也會收錄我的網站嗎?
會,但收錄速度會慢很多,且可能漏掉沒被內鏈到的頁。對小型網站影響不大,對大型網站(> 100 頁)影響很大,務必做 sitemap 並提交到 GSC。
Robots.txt 跟 noindex 差在哪?
robots.txt 告訴爬蟲「不要爬」(連抓都不抓),noindex 告訴爬蟲「可以爬但不要收錄到索引」。兩者用途不同:不想被爬到的後台用 robots.txt,公開但不想出現在搜尋結果的頁用 noindex。
Canonical 寫錯會怎樣?
最嚴重的後果是「整站只有首頁被收錄,內頁完全進不了搜尋結果」。我看過有 CMS 預設把所有頁 canonical 指向首頁,導致網站全站搜尋曝光斷崖式下滑。每篇文章上線後務必驗證 canonical。
CWV 沒達標會直接掉排名嗎?
不會立刻、戲劇性地掉,但長期會慢慢被超越。Google 公開表示 CWV 是排名訊號之一,但權重不大。對使用者體驗的影響更直接 —— 速度慢的網站跳出率高,間接影響排名。
關鍵名詞速查
- sitemap.xml
- 列出網站所有想被收錄 URL 的 XML 檔,提交到 GSC 加速收錄。
- robots.txt
- 放在網站根目錄的純文字檔,告訴爬蟲哪些路徑可爬。
- Canonical
- 告訴 Google「這頁的正版 URL 是哪個」,處理重複內容。
- noindex
- Meta 標籤,告訴爬蟲「可以爬但不要收錄到搜尋結果」。
- Mixed content
- HTTPS 頁面載入 HTTP 資源,瀏覽器會擋下並警告。