谷歌搜索的工作原理是什么
谷歌是一个足够智能且强大的搜索引擎,通常站长不用主动向谷歌提交网站,谷歌抓取工具(Googlebot)会24小时持续工作自动抓取互联网中的网页数据。当然你也可以登录“Google Search Console”主动向谷歌搜索提交你的网站。
谷歌抓取网页是一项免费服务
谷歌搜索会免费抓取互联网中的网页内容,不会收取任何费用,任何谣传的收费信息均属子虚乌有。若某SEO服务商声称向他们支付费用便能让您的网站出现在Google搜索结果中,一定是在骗您。
谷歌不保证收录互联网中的全部网页
谷歌搜索虽然足够强大,但不保证能够抓取互联网中的全部网页。你的网站需要遵守谷歌SEO规则,才能被谷歌蜘蛛正常抓取(只要网站内容不违规或不阻止谷歌蜘蛛都会被正常收录)。
谷歌搜索的工作流程
谷歌搜索的工作流程大概分为三个步骤:
抓取网页:谷歌蜘蛛(Googlebot)会持续不断的发现网络中的新数据(网页内容),并将其纳入谷歌数据库中,这个过程被称作“网址发现”。
谷歌主要通过两种方式发现新网页,分别是:
- 第一种方式:通过已知网页中的链接。
- 第二种方式:Googlebot索引到的新网页。
谷歌拥有大量Googlebot,每个Googlebot负责抓取一部分网页,谷歌能够抓取网络中的数十亿网页。每个网站的更新频率不同,内容质量不同,谷歌抓取的频率也会不同。谷歌会尽量控制抓取频次,以防对网站服务器造成较大影响。
谷歌可能只会抓取网站的一部分网页,以下类型的网页可能不会被抓取。
- 需要会员登录才会展示的网页。
- 网站阻止谷歌蜘蛛抓取(例如robots规则限制了谷歌抓取)
- 启用了JavaScript的网页可能不会被抓取(事实上谷歌已经可以抓取JS页面,只是抓取能力稍差一些)。
为了提高网页被抓取的概率,可以为网站设置网站地图(sitemap)。
索引网页:。谷歌抓取网页后,会尝试分析该网页的内容(文字、图片、视频、title元素、alt属性),这个过程叫做索引编制(谷歌分析抓取到的:文本、视频、图片等并存储到数据库中)。
谷歌会根据SEO规则决定是否将网页数据纳入数据库,以下类型的网页可能不会被正常索引。
- 违规页面内容(带有煽动情绪的内容)。
- 低质量内容(关键词堆砌内容)。
- 重复性内容(其它网站已经重复多次发表的内容)。
- 暗网内容(12306等需要登陆才能展示信息的网站)。
符合谷歌规则的网页将被纳入数据库,根据:内容类型、区域、设备等进行分类,以应对来自不同地区和设备的用户,为其展示更吻合的信息。
呈现网页数据:当用户使用谷歌进行信息查询时,谷歌会根据已索引的内容进行合理匹配,为用户展示匹配度最高的内容。匹配度是由多种因素决定的,包括:地理位置、设备、语言等。例如身在北京的用户在搜索“宠物店”时,谷歌会在搜索结果中展示地理位置位于北京的相关网站,但搜索引擎不会明确标注站点属性(不会在搜索结果中告诉你这个网站是北京的)。
网页内容被谷歌收录仅仅是SEO优化的开始,如何创造更具价值的内容才是搜索引擎优化的难点所在。