徐戈:搜索能力就是学习力,搜索引擎大法实操手册
科普篇
一、搜索引擎是个什么东西?
搜索引擎(Search Engine)是指依据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、聚集式搜索引擎、门户搜索引擎与免费链接列表等。
这里的用户指的是有信息获取需求的普通用户,其实信息生产提交方(站长等)严厉意义来讲也是“用户”,普通用户只需要把握搜索引擎使用技艺,而站长们更多的是琢磨SEO(搜索引擎优化)。这个帖子这双边都会有所涉及。
二、搜索引擎工作原理
爬行挠取:搜索引擎蜘蛛跟踪链接,挠取页面html代码存进数据库,低权重复制内容过滤;
预处理:文字和相关标签挠取,中文分词,往掉无意义内容提炼页面主要要害词(对于蜘蛛没有意义:如:的、啊、从而等,广告、申明等),往重(同一内容不同网站或同一网站不同网址);倒排索引:要害词到内容,链接投票,文件处理(目前只能依据标签和相关描述文字识别),质量推断:搜索引擎算法;
排名:中文分词(清除无实际意义的词后对搜索词的拆分重组,百度快照可查询分词结果),相关性计算:越常用的词对搜索词的意义奉献越小,词频,要害词位置形式距离(标题、H1、黑体等),链接分析(锚文本、周边文字、原站本身主题),排名过滤调整(百度第11位)。
搜索引擎的工作原理使命就是确保用户发出搜索指令后展现在他们面前的是其所需要的优质内容。
三、目前主流的搜索引擎
展开全文
搜索引擎简史:1994年Yahoo!诞生,1998年Google诞生,2000年百度诞生,2012年360搜索(好搜)推出。
百度
依据StatCounter(美国一家网站通讯流量监测机构,提供各种类型的统计报告以及网站流量统计服务)2022年3月中国搜索引擎市场份额展示,百度占比55.92%,百度市场份额位居国内top,跟国内目前其他搜索引擎相比,不说矮子里面挑高个的难听话,也不提竞价广告的乱象丛生,但从信息获取效率以及用户体验来比,提供各种类型的统计报告以及网站流量统计服务是当之无愧的。
作为学习工具,百度搜索有这两个地方不错,一是百度网盘,二是百度文库。
搜狗
前阵子腾讯收购了搜狗,搜狗搜索app换了新头衔bingo
360
对于360,实话实说,广告不比百度少,搜索结果质量也不敢恭维。来个对比。更多例子各位自行捣鼓。
目前抖音搜索也不容小觑,短视频时代正影响着用户搜索习惯。
必须把握Google!
Google上面才是互联网,其他国内的搜索引擎的触角都受限,只能喊局域网。除了信息全面,用户体验也是谁用谁知道。
世界领域内各搜索引擎市场份额
以2022年3月搜索引擎市场份额为例Google 91.55%,2、必应,3.09%,3、百度1.5%,4、雅虎1.47%,5,Yandex 1.07% ,6、DuckDuckGo 0.69%
搜索引擎以及相关实用技艺
高级搜索指令(了解即可)
这么理解,一般人不知道的,能够提高搜索效率以及精度的一些特殊指令。
普通用户常用的包括:
双引号(搜索:“要害词”)
把搜索词汇放在双引号中,代表完全匹配搜索,也就是说搜索出来的结果页面都是保护双引号中所出现的所有词汇,连顺序也是完全匹配的。百度和Google都是支持这个指令的。
使用双引号搜索可以更正确的找到特定要害词,更轻易找到自己想要的资源。
减号(搜索:要害词 -不需要的要害词)
减号代表搜索引擎展示不包括减号后面词汇的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,要紧跟着需要清除的词。Google和百度都支持这个指令。
使用减号高级指令可以更加正确的找到需要的文件,特别是某些词语有多重意义的时候。
星号 (搜索:搜索*擎)
星号是常用的通配符,也可以使用在搜索引擎中。百度不支持*号指令。
比如在Google中搜索“ 搜索*擎”,其中*代表任何文字、出现的结果就不仅仅是包含“搜索引擎”的页面了。
inurl:(搜索:inurl:任意字符串)
inurl:指令用于搜索查询词出现在URL中的页面,可以按英文字面意思理解。百度和Google都是支持inurl:指令的。inurl:指令不仅支持英文,还支持中文。
高级搜索指令inurl的语法格式为:inurl:xxx(xxx可以为任意字符串)。此命令是查找url中包含xxx的网页。
假如你是做SEO的,那么inurl:指令对你会很有用,因为你可以快速的找到竞争对手(因为要害词出现在URL中对排名有一定的影响)。
intitle:返回的是页面title中包含要害词的页面
百度和谷歌都支持intitle。title是目前页面优化最重要的因素。无论是什么网站,基本都会把要害词放进title中。
详尽用法:
filetype:搜索特定文件格式的时候使用。
例如:filetype:pdf 视频教程,展示的是包含“视频教程”的所有PDF文件。filetype指令可以用来搜索特定的资源,比如PDF电子书、Word文件等。Google和百度都是支持filetype:指令的。
详尽用法:
10、site:这个高级搜索指令用来搜索某个域名下面的所有文件。
比如搜索“site:中,出现的收进页面经常有大幅度波动,只能用于参考,但不能完全信赖。
之前有人用“site:yun.baidu.com ”资源要害词这个搜网盘里面的资源,现在貌似不大顶用了,等下给出替代方案。
高级搜索指令大全诸位可自行百度,弥补一点是,这些指令很多都可以互相搭配使用影响最后的结果。可以有很复杂的组合结果,好消息是有人帮我们封装好做写成了特殊的搜索引擎供我们使用。
特殊搜索引擎
这有个知乎特殊搜索引擎汇总贴:
大而全的东西意味着杂乱,外行很轻易陷进抉择困难症一脸茫然。我给大家重点勾勒几个点。
先顺逻辑:从学习的角度,我们搜索一个东西最浅显的需求就是了解知道,要想深进消化吸取往往意味着有必要触发资料收集下载这一动作。
理论上,只要挂在网上,就算是付费的视频,文档也能抠下来。某宝上面固然有售,稍稍懂点搜索引擎的功能其实都能省往不少精力,虽然大伙儿都不差钱,哈哈。
百度文库,豆丁等下载:冰点下载器
YouTube视频下载:en.savefrom.net
国内视频网站内容下载:硕鼠
虎牙直播,斗鱼直播等在线直播视频下载:屏幕录制软件(CamtasiaStudio),我手上有个程序员自己写的程序不知道喊啥,等下贴个交流群。
视频资源:用各种种子搜索引擎就好了。如:电驴,海盗,死往的btspread,以及不能说的其他站点。等下各位在评论区弥补。
浏览国外资讯什么的,起码要爬梯子吧。。。。
省略一万种资源获取方式……
最后放个大招:自行百度吾爱破解,精易论坛,对绝大多数人来讲,那将是另外一片天堂。
各色工具资源站点我收躲夹都躺了几百个,一次抖不完。唠叨一个省事的终极构思——互联网的基础设施是IT们搭建起来的,其中有五颜六色的暗门,摸熟搜索引擎,就是拥有了打开这些暗门的钥匙。
至于暗网什么的高级黑,下次八卦,写写我把握的一些细节。
要害词使用
使用搜索引擎的搜索功能最重要的是知道输进哪个要害词。
搜索引擎就像一个移运工,你想让他给你移运啥东西,你起码得知道自己想要什么。例如你想学英语,你可能就会搜怎么学英语,英语培训教程。这种起码的素养,一般人初次接触搜索引擎就具备。这一阶段一般使用的往往是泛要害词。
学习是个循序渐进的过程,意味着你有深进挖掘细分领域的需求。这就引申出另外一个概念喊精准要害词(或长尾要害词),不过多展开,需要强调的是,大家在使用搜索引擎的时候要有意识地往提炼自己的要害词,从不同的维度往获取你想要的信息。
举个粗暴栗子,黄片又喊爱情动作片,此外番号,番号封面,女优这些要害词也指向你想要获取的资源,是不是很有趣。
互联网再纷杂,只要多记对象名词,熟悉事物要害节点,借助搜索引擎就能提纲挈领,手到擒来。到这个当口,才有天下为我所用的把握感。
搭建网站门类的记忆宫殿
浸淫互联网许久,俺在说个有意思的点。导航网站信赖大家都很熟悉,像hao123,金山毒霸导航,360导航。
我想给大伙说的是,这些导航网站的布局一般都别有专心(用来做淘宝客导购,软件注册妥善,广告等),而且聚合的站点也很无能,称心普罗大众日常的消遣尚可,但是想让搜索引擎成为你的大学,就远远不够了。
你需要搭建属于自己的“网站导航”,在日常接触到的优异网站,记得在浏览器点一下收躲,分门别类。经年累月的积存,这将是你电脑上最重要的一笔财富。我换电脑或装系统几乎东西不担心丢失,同步下收躲夹就好了。
分门别类的收躲夹是你搭建脑海记忆宫殿的基础,最终要达到有搜索需求的时,资源获取手到擒来。
至于怎么治理你的收躲夹,适合你自己的姿势才是最好的,一些治理原则,放个帖子:
网感
多泡网,知识各色各样的网站样式,在建立起自己的站点记忆宫殿之后,培植自己的网感,懂得各色资源的搭配调取使用。网感是个很大的命题,看似有些务虚,实则用处极大。此处提出这一概念,鉴于篇幅下次阐述。
资源篇
从学习获取资源的角度,看上面的东西就够用了。你要对搜索引擎真感兴致,俺接着给大家推举几本类似行业圣经的读物。
SEO艺术
国外译著,享有盛誉
《这就是搜索引擎:核心技术详解》
关于一些技术细节
《搜》
搜索引擎的由来,了解历史,偏文化经济层次
《SEO深度解析》和《SEO实战密码:60天网站流量提高20倍(第3版)》都是站长SEO操作指南。
公众号:xugebit,徐戈。凡关注了本号的朋友,可在后台领取两本——非常值得一读的绝非烂大街的可称之为营销秘典的好书。