常用抓取返回碼有哪些?相信很多人都會有這樣的疑問,下面聚名網為您詳解一下常用抓取返回碼總結。
1) 最常見的404代表“NOT FOUND”,認為網頁已經失效,通常將在庫中刪除,同時短期內如果spider再次發(fā)現這條url也不會抓?。?/p>
2) 503代表“Service Unavailable”,認為網頁臨時不可訪問,通常網站臨時關閉,帶寬有限等會產生這種情況。對于網頁返回503狀態(tài)碼,百度spider不會把這條url直接刪除,同時短期內將會反復訪問幾次,如果網頁已恢復,則正常抓??;如果繼續(xù)返回503,那么這條url仍會被認為是失效鏈接,從庫中刪除。
3) 403代表“Forbidden”,認為網頁目前禁止訪問。如果是新url,spider暫時不抓取,短期內同樣會反復訪問幾次;如果是已收錄url,不會直接刪除,短期內同樣反復訪問幾次。如果網頁正常訪問,則正常抓??;如果仍然禁止訪問,那么這條url也會被認為是失效鏈接,從庫中刪除。
4)301 代表是“Moved Permanently”,認為網頁重定向至新url。當遇到站點遷移、域名更換、站點改版的情況時,我們推薦使用301返回碼,同時使用站長平臺網站改版工具,以減少改版對網站流量造成的損失。