收藏文章 楼主
搜一搜SEO选词步骤
版块:产品问答   类型:普通   作者:chazhan123   查看:540   回复:0   获赞:0   时间:2022-03-09 11:38:48

当我们有一份50万条“seo”相关长尾词的数据,如何把这个领域的常见词根提取出来呢?




词频,这是比较直接的,最高词频就是常见的。




但是,词频数据首先要基于分词,可分词技术只能识别已登录词(可以理解为它认识的),对于很多领域的专业术语是识别不出来的。




它可能认得“优化”、“排名”这些词,因为这些词不只是这个领域的常见词,但是它大概率不认得“霸屏”这个词,可这还是这个领域的常见词。






在这里,我们引入新词发现技术,这个算法我们后续文章再聊,简单来说:它会根据数据里的文本分布,结合左右邻文本和整体出现频率,用概率的方式计算一段文本是不是一个词汇。




当我们把一份seo相关数据给它时,它可以返回这样一份数据(限定返回TOP100个):




TOP前的词汇一般都是正确的,但是这些词汇是按照概率返回的,不一定是seo领域主要的、常见的。




所以我们只需要再根据词频排序(领域常见的词频就比较高):


可以看到TOP前的大都是seo这个领域常见、重要、主要的词汇,即:这个领域聊来聊去都是在聊这些的词汇,提供的数据越多越丰富,结果越准确。




这个算法我有封装了一个小工具,给它数据(给一批也行),就返回相应的词汇,可以限制数量,可以做词汇过滤:


工具除了这个作用以外,还适合提取出大词,用于深挖领域长尾词,而新词发现的功能还可以用于其他地方,后续再介绍。




工具在文末领取。




ps:我们这里的演示数据是长尾词,然而新词算法的原始数据可以是长尾词、也可以是标题、文章,数据越多越丰富越准确。




步骤4


通过刚才的程序,我们得到了每一个领域的常见词汇,在我的测试数据里,限制返回词量50个,50份数据得到了2500个词汇分别保存:




接下来我们去除一些非目标词:




在返回的词汇里,我们可能会碰到“怎么”这样的词汇,类似“好像”这样的词虽然也不是目标,但是因为它在长尾词数据里的词频太低,一般不会被程序当成“可能的词汇”,至少没办法排在返回的数据里的top。




可是“怎么”这样的词汇是很有可能出现的,因为词频太高了,而我们显然不打算注册一个名称为“seo怎么”的公众号,因此这些词要去除。查站网

 我 在下方展示

 
回复列表
默认   热门   正序   倒序

回复:搜一搜SEO选词步骤

暂无用户组
退出
等级:0级
学途币:
游客:

平台声明:

为打造一个高质量、高收录的外链平台,站长将针对所有普通用户投稿的内容进行审核,针对文章原创度、文章格式是否杂乱、外链数量是否泛滥等多个方面对投稿内容进行审核测评,只有满足条件的内容才会通过审核。

平台将持续严厉打击发布虚假不实信息内容,一经发现立即删除,且将对发布虚假内容的账号进行相应的处罚。

当用户等级达到2级及以上等级之后,可联系站长【QQ:724413399】免费升级至VIP会员组,将免费获得发贴免审核权限,以后发的帖子都将跳过审核直接发布成功!

Powered by HadSky 7.7.16

©2015 - 2024 seo学途论坛网

XML( 1234567891011 )

您的IP:3.238.12.0,2024-03-29 16:31:10,Processed in 0.16763 second(s).

网站备案号:黔ICP备19009860号-2

seo学途论坛网是一个可以免费发外链的论坛,大家可以免费发布含有纯文本外链、锚文本外链的精美软文内容,也可以在论坛中与大家进行交流、讨论更多话题。
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
免责声明

1、本站资源,均来自网络,版权归原作者,所有资源和文章仅限用于学习和参考 。

2、不得用于商业或非法用途,否则,一切责任由该用户承担 !

3、本站内容如不慎侵犯了你的权益,敬请谅解,内容素材由网友自发上传并非本站意愿,您可参照文章侵权处理流程联系我方解决!


侵权删除请致信 E-Mail:724413399@qq.com