这里有(yǒu)我们最新(xīn)的签约信息及相关公司活动!
最近我们都在干什么?
什么叫网络爬虫又(yòu)有(yǒu)何作用(yòng)
类目:行业资讯 发布日期:2015-09-11 点击:6338 次
网络爬虫(又(yòu)被称為(wèi)网页蜘蛛,网络机器人,在FOAF社區(qū)中间,更经常的称為(wèi)网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用(yòng)的名字还有(yǒu)蚂蚁,自动索引,模拟程序或者蠕虫。
网络爬虫是一个自动提取网页的程序,它為(wèi)搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新(xīn)的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较為(wèi)复杂,需要根据一定的网页分(fēn)析算法过滤与主题无关的链接,保留有(yǒu)用(yòng)的链接并将其放入等待抓取的URL队列。
相对于通用(yòng)网络爬虫,聚焦爬虫还需要解决三个主要问题:
(1) 对抓取目标的描述或定义;
(2) 对网页或数据的分(fēn)析与过滤;
(3) 对URL的搜索策略。
抓取目标的描述和定义是决定网页分(fēn)析算法与URL搜索策略如何制订的基础。而网页分(fēn)析算法和候选URL排序算法是决定搜索引擎所提供的服務(wù)形式和爬虫网页抓取行為(wèi)的关键所在。这两个部分(fēn)的算法又(yòu)是紧密相关的。