爬蟲(chóng)即網(wǎng)絡(luò)爬蟲(chóng)就是按照一定規(guī)則從互聯(lián)網(wǎng)上抓取信息的程序。比如去百度搜索關(guān)鍵字“Python”,這個(gè)時(shí)候我們的瀏覽器就會(huì)向網(wǎng)站發(fā)送請(qǐng)求。
提取數(shù)據(jù),數(shù)據(jù)包括了圖片、文字、視頻等等,都叫數(shù)據(jù),在我們發(fā)送請(qǐng)求之后,網(wǎng)站會(huì)呈現(xiàn)搜索結(jié)果給我們,這其實(shí)就是返回了數(shù)據(jù),這時(shí)候我們就可以對(duì)數(shù)據(jù)進(jìn)行提取;
自動(dòng)化程序,也就是我們寫(xiě)的代碼,實(shí)現(xiàn)了自動(dòng)提取程數(shù)據(jù),比如批量對(duì)返回的圖片進(jìn)行下載和保存,替代我們一張一張圖片進(jìn)行手工操作。
我們一般見(jiàn)到的爬蟲(chóng)也是爬取數(shù)據(jù)用的。這類(lèi)爬蟲(chóng)其實(shí)就做了兩項(xiàng)工作:1.獲取網(wǎng)頁(yè)源代碼;2.從網(wǎng)頁(yè)源代碼中解析和提取所需要的數(shù)據(jù)。
爬蟲(chóng)的分類(lèi)有哪些?
①通用爬蟲(chóng)(大而全)
功能強(qiáng)大,采集面廣泛,通常用于搜索引擎,比如百度瀏覽器就是一個(gè)很大的爬蟲(chóng)程序。
②聚焦爬蟲(chóng)(小而精)
功能相對(duì)單一,只針對(duì)特定網(wǎng)站的特定內(nèi)容進(jìn)行爬取,比如說(shuō)去某個(gè)網(wǎng)站批量獲取某些數(shù)據(jù),這也是我們個(gè)人最常用的一種爬蟲(chóng)了。
③增量式爬蟲(chóng)(只采集更新后的內(nèi)容)
這其實(shí)是聚焦爬蟲(chóng)的一個(gè)迭代爬蟲(chóng),它只采集更新后的數(shù)據(jù),對(duì)老數(shù)據(jù)是不采集,相當(dāng)于一直存在并運(yùn)行,只要有符合要求的數(shù)據(jù)更新了,就會(huì)自動(dòng)爬取新的數(shù)據(jù)。
以上就是有關(guān)什么是爬蟲(chóng)?爬蟲(chóng)的作用的介紹。