百度搜索引擎是怎么抓去页面的?

随后Googlebot就能够看到HTML source code并根此生成DOM tree;之后再使用JavaScript engine去render DOM tree并渲染整个web page;

一、百度搜索引擎是怎么抓取页面的?

1. 百度搜索引擎采用了“蜘蛛”(Spider)的方法来实现对Web页面的自动化采集。

目前成都创新互联已为上千多家的企业提供了网站建设、域名、网络空间、网站托管维护、企业网站设计、囊谦网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。

2. 这个过程就是所谓的“机器人”或者说“机器人行为”,即通过特定的代理服务器向目标站发出HTTP请求,以便从中得到想要信息。

3. 当然,在此之前必须先解决如何找到目标站上存在的新闻、图片、文件或其它信息。

4. 针对这一问题,网站会通过不同方式将URL告诉Googlebot, 比如XML Sitemap, Robots.txt, Link Element in HTML Headers 等。

5. Googlebot会根据Robots Exclusion Protocol (REP)去遵循并根据Sitemaps XML文件中声明好的URLs去释出Crawl Request来释出Crawl Request来释出Crawl Request来处理整个流程。

6. 具体而言,当Googlebot发送HTTP request时,web server会将HTML response作为response body回复Googlebot;随后Googlebot就能够看到HTML source code并根此生成DOM tree;之后再使用JavaScript engine去render DOM tree并渲染整个web page;最后Googlebot就能看到final rendered web page了。

7. 有时候也会针对AJAX requests发送POST request去fetch dynamic content;考虑到大部分AJAX requests都是GET request, Google bot也会针对GET AJAX requests发送request去fetch dynamic content;

8 . 另外一方面,当Google bot遵循link element in HTML headers时( ) ;google bot也能够follow link elements and fetch the next pages of a paginated series of webpages or blog posts etc.;

9 . 最后要注意的是: Google Bot不会马上indexing fetched URLs , 还要考视crawled URL's relevance to user query before indexing it into its search results database ;

10 . 此外 , 由于 google bot 高度依赖 robots exclusion protocol ( REP ) , 所以 website owners 必须在 robots txt file 配置好 google bots 的 crawling rules ;

二、总体来说:

1 . 由于google bot 高度依赖robots exclusion protocol (REP), website owners必须在robots txt file中正确地声明google bots crawling rules ; 2 . google bot使用spider technology 根���urls list from sitemaps xml files & link elements in html headers to crawl target websites ; 3 . google bots send http requests to target sites & receive html responses as response bodies ; 4 . after that , they generate dom trees by looking at html source codes & render them with javascript engines so as to get final rendered web pages ; 5 . sometimes they also send post/get ajax requests for dynamic contents if necessary ; 6 . finally , they will assess crawled url's relevance to user queries before indexing them into their search results databases

以上就是关于百度搜索引擎是怎么抓去页面的?的相关知识,如果对你产生了帮助就关注网址吧。

网站题目:百度搜索引擎是怎么抓去页面的?
文章路径:http://www.mswzjz.cn/qtweb/news23/101823.html

攀枝花网站建设、攀枝花网站运维推广公司-贝锐智能,是专注品牌与效果的网络营销公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 贝锐智能