接下来我们去除一些非目标词:
在返回的词汇里,我们可能会碰到“怎么”这样的词汇,类似“好像”这样的词虽然也不是目标,但是因为它在长尾词数据里的词频太低,一般不会被程序当成“可能的词汇”,至少没办法排在返回的数据里的top。
可是“怎么”这样的词汇是很有可能出现的,因为词频太高了,而我们显然不打算注册一个名称为“seo怎么”的公众号,因此这些词要去除。
下面是常见要去除的目标词,一般可以解决掉7788:
小部分不理会,我们只是尽可能的减少无效目标。
这个步骤在上述工具里可以事先设置,只是这里需要讲一下这个步骤。
步骤5
去除了无效词,接下来要组合出大词,也就是“seo”这个领域里出现“优化”,我们要把“seo”和“优化”组合起来形成组合大词。
新词算法根据提供的数据计算,它有可能直接计算出“seo优化”这样一个组合词(如果这个组合在数据里出现足够多的频率)。
因此我们需要挨个判断一下:如果seo这个领域返回的某个词有包含seo,那就不需要组合了,它一定是个常见组合词,反之,需要把“seo”组合进去。
但是这又会有个问题:当它出现“优化”这个词时,到底要让程序把“seo”放前面还是放后面呢?
人工显然知道放哪里,但这是程序自动执行的,需要给它判断条件才行,否则就可能会组合出“优化seo”,要是碰到“书籍”,出现“英语”,然后组合出“书籍英语”,这就很尴尬了。
行业不同,很多表述千奇百怪,一味放前或放后都不行,需要灵活判断。
在这里我们运用一个简单的策略,基本可以做到万无一失:
我们分别把“seo”放到前面和后面,会得到“seo优化”和“优化seo”,然后把这两个组合词拿到原始数据里统计词频。
看看哪一个组合词的词频高,词频高代表“这个描述更常见”,取词频高的那一种作为组合结果。
同时,因为“优化”这个词是来源于seo里的高频词汇,与“seo”组合并经过词频比较,得出来的组合词一定是通顺自然的。
运用这种方式就不可能得到“书籍英语”这样的结果,毕竟在一份正常的行业内容数据里,“英语书籍”这个文本怎么都会比“书籍英语”来得更常见。查站网
为打造一个高质量、高收录的外链平台,站长将针对所有普通用户投稿的内容进行审核,针对文章原创度、文章格式是否杂乱、外链数量是否泛滥等多个方面对投稿内容进行审核测评,只有满足条件的内容才会通过审核。
平台将持续严厉打击发布虚假不实信息内容,一经发现立即删除,且将对发布虚假内容的账号进行相应的处罚。
当用户等级达到2级及以上等级之后,可联系站长【QQ:724413399】免费升级至VIP会员组,将免费获得发贴免审核权限,以后发的帖子都将跳过审核直接发布成功!
双击表格可删除表格
1、本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和参考 。
2、不得用于商业或非法用途,否则,一切责任由该用户承担 !
3、本站内容如不慎侵犯了你的权益,敬请谅解,内容素材由网友自发上传并非本站意愿,您可参照《文章侵权处理流程》联系我方解决!