搶的人和防的人,都不是內容的主人
有一種網站,會在你連進去的瞬間,先給你一個空白頁面,跑一段 JavaScript,確認你是人、不是機器,才讓你進去。
這個設計不是為了你。是為了擋掉那些想批量抓取內容的爬蟲。
我觀察一個大型論壇的基礎設施,發現它的伺服器編號從個位數排到了五十幾號,但實際獨立的節點只有十幾台。那些多出來的編號,只是幌子。真正在運作的,是一套 DNS 輪詢機制,加上幾個防爬蟲的前置關卡。
整個架構裡,沒有一行程式碼是為了「讓內容更好」而存在的。
攻防從什麼時候開始的?
著作權這個概念,出發點很單純:創作需要時間和心力,創作者應該從中得到回報,這樣才有人願意繼續創作。
網路出現之前,這件事雖然不完美,但大致上還是成立的。書要印刷才能傳播,音樂要壓片才能複製,成本本身就是一道屏障。
網路打破了這道屏障。複製的成本趨近於零,傳播的速度趨近於即時。著作權的保護機制,突然面對一個它從來沒有預設過的環境。
於是攻防開始了。
平台要保護內容,建防火牆、做驗證、擋爬蟲。爬蟲想繞過去,模擬瀏覽器行為、偽裝成真人。平台加強偵測,爬蟲繼續進化。這個循環,從網路誕生那天就在跑,到今天還沒有停。
兩邊搶的,都不是自己的
有一件事我一直覺得很弔詭:這場攻防的雙方——想抓資料的爬蟲,和拚命防守的平台——都不是內容的創作者。
爬蟲想要的是數據、流量、或者訓練 AI 的語料。 平台想保護的是用戶黏著度、廣告收益、或者競爭優勢。
真正「出」內容的那個人,在這場戰爭裡幾乎是隱形的。
他寫了一篇文章,放上論壇。這篇文章變成了平台爭取用戶的籌碼,也變成了爬蟲想批量取走的目標。攻防雙方都消耗著大量的資源——伺服器、工程師時間、電費——但這些資源,沒有一分流向最初讓這一切有意義的人。
這不是著作權設計的初衷。這是著作權在網路環境裡的某種失靈。
協定解決不了信任問題
有人可能會想:如果網路底層的協定本身就能標記「這個內容允許誰存取、能不能被爬」,是不是就不需要這些攻防了?
理論上很美。現實上很難。
HTTP 協定已經走了三十幾年,從 1.1 到 2 到 3,每一代都在改善速度和效率,但應用層的邏輯始終是 HTTP 那一套。不是因為沒有更好的設計,而是全球幾十億個設備和網站都建在這個基礎上,換協定的成本無法承受。
更根本的問題是:內容一旦到了你的螢幕,就是你記憶體裡的資料了。協定可以控制傳輸的過程,但控制不了「收到之後怎麼用」。這個缺口,任何協定都填不上。
所以攻防只能繼續在應用層打,永遠不會有真正的終點。
從文字到影像,第三方真正想要的是什麼?
這個問題,隨著內容形式的演變,變得越來越複雜。
最早是文字。寫一篇文章,放上論壇,有人讀了,有人轉貼,有人截圖流傳。創作者想要的,可能只是被看見、被認同,或者一點點回報。
然後是圖片、音樂、影片。每一種新形式,都帶來新一輪的攻防——盜圖、盜版、非法轉載——以及新一輪的保護機制。
現在是短視頻。一個人站在鏡頭前說三十秒的話,可能帶來幾百萬次的觀看。平台分到廣告收益,觀眾得到娛樂,創作者得到……流量。流量能不能換成錢,取決於平台的規則,而規則是平台定的。
仔細看這個結構,三方的真實需求其實從來都不一樣:
創作者想要的,是「貢獻被看見,且被合理回報」。 平台想要的,是「內容帶來流量,流量帶來廣告」。 爬蟲(或者說資料需求方)想要的,是「大量內容,越便宜越好」。
這三件事,表面上都圍繞著同一批內容,但沒有一件是真正為了內容本身。
著作權試圖在這三者之間劃一條線,告訴大家「這是創作者的」。但這條線在現實裡從來都是模糊的——平台用服務條款把創作者的授權悄悄拿走,爬蟲用技術手段繞過法律的邊界,創作者則在兩者的夾縫裡,繼續出產讓這一切得以運轉的內容。
而推動這整個循環的,是第三方寫下的每一個字。
著作權想保護的,正是這些字。但在這場沒有終點的攻防裡,這些字只是戰場,不是受益者。