快訊
冉茗玉:11.12黃金午間走勢分析,黃金震蕩下行多空如何進場?
23分鐘前
冉茗玉:黃金投資套單爆倉虧損,不知病根,只能病重
26分鐘前
律令無霜:1STFFCCRYRTO虧損內幕!投資者引以為戒!
26分鐘前
劉論鑫:11.12黃金早間又開始橫盤,何時才能抄底?
26分鐘前
趙鑫勝:新手炒黃金導致頻繁虧損最直接的原因是什么?
28分鐘前
楊嘉壹:11.12別被彈劾案蒙住了眼!黃金會漲?沒那么簡單!
28分鐘前
《死或生6》復刻可愛夏季服裝演示影像16名女性角色泳裝
29分鐘前
在網賭網站贏了財務各種系統審核理由不給出款怎么辦,是不是被坑了?
32分鐘前
蕭郁婕:炒黃金如何穩健盈利?三步總結簡單實用炒黃金技巧
32分鐘前
《命運2》新異域級武器“流明”獲得方法一覽
37分鐘前
京東互聯網醫院11.11期間在線問診量單日峰值超12萬
40分鐘前
《死亡擱淺》全存儲芯片位置地點攻略全芯片地圖位置一覽
48分鐘前
大眾法國負責人將調任加拿大公司CEO
50分鐘前
鄧海清等:10月信貸社融不及預期季節性因素突出
50分鐘前
《新櫻花大戰》亞洲地區體驗版同步推出中文游戲畫面公開
55分鐘前
《絕體絕命都市4Plus:夏日回憶》中文版評測:大災之下眾生相
55分鐘前
《奇跡一刻》開始搶先體驗,帶隊爭冠,虜獲選手的心
56分鐘前
威馬EX535秒成交天貓雙11智能電動汽車熱銷
59分鐘前
康恩貝股價大跌-5.03%
1小時前

爬信息爬到服務器癱瘓,今日頭條的頭條搜索成了小網站的噩夢!

差評 2019-10-29 14:19:44

文章經授權轉自公眾號: 差評(ID:chaping321),作者:差評君

今年上半年,字節跳動放出了個讓百度虎軀一震的消息 —— 今日頭條開始做搜索引擎了。

兩個月前還大張旗鼓的在親爸爸字節跳動的官方公眾號上招人組隊來著~

微信圖片_20191029135849.jpg

沒過多久移動端的 “ 頭條搜索 ” 就低調上線。

頭條搜索從只限于頭條 App 的站內搜,變成可以抓取全網內容的全新搜索引擎,期間還和百度互剛了好幾波,字節跳動的野心可見一般。

( 世超之前還帶大家體驗了一把,沒看過的差友們可以點這里補補課【傳送門】)

微信圖片_20191029135859.jpg 

字節跳動下這步棋,其實完全是在情理之中的舉動。

依靠著今日頭條過億日活帶來的天然信息流資源,頭條搜索已經有了很大的基礎優勢,這不考慮分百度一羹都說不過去。。。

不過上線的這段時間,差評君關于他們的官方消息沒看到幾個,倒是爆出了這么個新聞 ——

 微信圖片_20191029135902.jpg

什么是爬蟲?

爬蟲就是自動抓取全網內容的一種程序,它會定時把互聯網上的內容爬下來,匯總存儲到自己的服務器上,這樣你每次搜索的時候,搜索引擎就會在這些內容里進行匹配相似度高的內容反饋給你。

 微信圖片_20191029135905.jpg

為了讓大家總能查詢到互聯網上的最新內容,爬蟲一般每隔一段時間就再重新爬取一下網站內容。

在這個新聞里,一些服務器體量較小的網站稱,一種名為 Bytespider 的爬蟲爬取他們的網站信息的頻率太高,直接把網站整癱瘓了。

大家順著爬蟲的 IP 地址查了一下,發現 Bytespider 就是今日頭條的搜索爬蟲。

crawl.bytedance.com

微信圖片_20191029135908.jpg

大公司的爬蟲都有自己的名字,像是谷歌的爬蟲叫 Googlebot,百度的爬蟲是 Baiduspider,搜狗的爬蟲 Sogouspider,而今日頭條家的就是 Bytespider。

但讓差評君疑惑的是,像是用爬蟲爬信息這種在互聯網界已經算得上最常規不過的操作,小體量的公司都很少出錯,今日頭條這種大廠怎么把人家網站給搞癱了?今日頭條在業內的技術口碑一直不錯啊。。

會不會是漏洞或者是烏龍?所以差評君就多留心了下。。

不查不知道,一查嚇一跳,其實從今年 6 月開始就有網站主抱怨了這個 Bytespider。

 微信圖片_20191029135911.jpg

根據網站主的描述,爬蟲短短一上午時間就對網站發出了 46W 次請求,直接耗掉服務器 7 個多 G 的流量。

46W 次請求。。。

這對平均日活可能都沒有過千的小網站來說,已經算得上一次小型的 DDoS 攻擊了啊。。

而且從今年 6 月到 10 月,越來越多的人開始在網上爆料自己也遇到了類似的情況。

CNDS 上也能找到相關文章

1572328785(1).jpg

某家網站的的服務器日志

微信圖片_20191029135952.jpg

而且連國外的網站也不能幸免!!在國外的編程交流網站上

最過分的是,無論是國內還是國外的開發者,都表示遇到 Bytespider 無視自家網站 robots 協議的情況。

 微信圖片_20191029135956.jpg

差評君給大家解釋一下什么是 robots 協議。

它是一種網站附帶的文本文件,專門用來告訴爬蟲引擎在這個網站上的爬蟲規矩。

譬如說哪些內容可以被爬取,哪些內容不能被爬取,而某些涉及用戶隱私的會直接禁止爬取。。。

如果你想查看某個網址的 robots 規則,只需要在主域名后面添加 /robots.txt 便可以看到。。

舉個栗子,下面這個圖片就是 Google 搜索的 robots 規則,Disallow 后面跟著的就是禁止爬蟲做的事情,Allow 后面跟著的則是允許爬蟲的操作。

 微信圖片_20191029135959.jpg

當然 robots 協議并不是每個網站都有,并且 robots 協議也沒有什么法律效力, robots 協議更像是一種江湖規矩,就像電影院里貼著不要大聲喧嘩,博物館里不讓用閃光燈一樣。。

那些專門寫了 robots 協議的網站,就是告誡那些爬蟲網站,進了我家門,請遵守我的規定。

再舉個栗子,在用谷歌搜索的時候,你有可能會碰到有詞條有鏈接,卻沒有頁面說明的搜索結果。

微信圖片_20191029140002.jpg

這就很可能是因為對方的 robots 協議里允許谷歌抓取信息,但不讓谷歌搜索結果對網頁進行描述。

 微信圖片_20191029140004.jpg

大家都在互聯網這個江湖混,所以大部分人都老老實實的尊重這個江湖規矩。

有些小網站會根據自己的服務器體量和維護成本,直接在 robots 協議里規定爬蟲爬取的頻率。

然而 Bytespider 卻會忽略掉人們的規矩,仗著自己財大氣粗、服務器牛逼,每秒幾十次,幾百次的抓爬訪問頻率,讓小網站變得卡頓,甚至直接 502 掛掉。。。

Google 上搜索 “ Bytespider ”全是抱怨

微信圖片_20191029140008.jpg 

這不是不給小網站活路么。。。

本來網站們是并不排斥爬蟲過來爬取他們的內容的,因為對他們來說被正常抓爬不是壞事,反而給自己的網站多了一個搜索曝光位,何樂而不為?

我給你提供內容,你給我曝光量,這本來是個雙贏的事情,但這回頭條搜索的操作實在是太亂來了,壓根不管你的承受能力,索取無度。。

而且,遇到這種情況的開發者偏偏又很難找到渠道去和今日頭條溝通,只能在自己這邊直接禁掉今日搜索的爬蟲 IP 了。。。

但其實這樣,對雙方來說都沒好處。

搜索引擎公司爬蟲被禁,可能直接導致它的搜索結果失去了一條有用結果;而對于禁爬蟲的公司來說,他們無疑少了一個渠道的曝光。

兩敗俱傷。。。

曾經 YisouSpider 也因為流氓爬取,被程序員們唾棄

 微信圖片_20191029140014.jpg

而且忽略網站 robots 規則,也就是說,沒準兒今日搜索的爬蟲會爬到一些網站禁止訪問的內容,譬如用戶隱私信息啥的,這可就是在法律邊緣試探了。。

至于頭條搜索為什么要這么做,差評君猜測很可能是因為產品急著上線,需要快速擴充內容庫,下了個狠手。

截止到目前,字節跳動或者頭條官方都沒有出面對這個事情做出辟謠或任何解釋。

差評君唯一能看到官方對于這個事情的回應還是在微博上的一則回復。

接受一切反饋

 微信圖片_20191029140027.jpg 

不過所有的反饋能不能得到實際行動上的回應,著我們也不得而知了。

有人說,在搜索引擎界,頭條算是新入局的小孩兒,如果要拿他這次的 “ 流氓行為 ” 和現在已經數據基礎龐大,但是遵守規定的谷歌、百度去比,有點不公平。

差評君說句實話,字節跳動已經算得上一個大佬,這樣的行為對那些無力反抗的小網站來說公平嗎?

大家都遵守 robots 規則是有道理的:做信息分發等業務時,不能竭澤而漁擾亂互聯網生態,這樣大家相安無事互助互贏。

現在這么一波暴力抓取,為了節省時間成本逼得網站不得不完全屏蔽掉它,結果整得大家都費力不討好。

關鍵是,無財無勢的小網站還輸不起啊!

不管是物資還是財力都更龐大的巨頭,更應該成為江湖界守規矩的標桿,老大要是亂了風氣,江湖可就徹底糊了。

特別聲明:本文為合作媒體授權DoNews專欄轉載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表DoNews專欄的立場,轉載請聯系原作者及原出處獲取授權。(有任何疑問都請聯系[email protected])


相關文章

正在加載......
11选5选号技巧