轻松提高机器编码的内容分析正确性,这两个步骤超实用!
上一期图文,我们了解了机器编码和(机器辅助)人工编码的执行差异和各自的优劣势。(点这里回忆:《做内容分析,还在纠结人工编码,还是机器编码吗?》)
这一期,我们将介绍大数据技术辅助内容编码的操作方式。
首先,我们先来看看DiVoMiner是如何执行机器编码的。
DiVoMiner如何执行机器编码?
第一步:检查【编码库】数据,这是机器编码的执行对象。
第二步:检查编码类目。编码类目和要害词设置是机器编码的执行依据。
第三步:【数据治理】-【总览】中,抉择一个数据库,点击【机器编码】,等待执行完成,进进【编码结果】即可查阅结果。
注重:DiVoMiner ®平台答应多次执行机器编码,若您更新了数据库,或修改了编码类目,重新点击【机器编码】即可。
大湾区-人文历史话题统计
“大湾区11个城市旅游品牌个性研究”这个项目,各个渠道数据加起来超5万条,你知道小编从拿到数据,到做出图表,要多久时间呢,10分钟!
机器编码,效率就是这么高~
看到这里,可能有同学会有疑问,机器编码效率高是毋庸置疑,但是如何保证其正确性呢?
展开全文
如何提升机器编码的正确性?
其实,上文已经说到了,机器编码并不是完全交由机器解决全部问题,机器编码结果高度依靠用户自设的选项要害词条件。即要害词是机器推断的逻辑依据,机器编码是通过给类目选项设定要害字,在海量数据中搜索出与要害字相关的内容结果。因此,做好这两步,机器编码的正确性大大提升。
1) 设置正确的类目要害词
类目选项的要害词设置越正确,机器编码的结果正确性越高。在研究过程中,有可能需反复调整、优化要害字的设定方式,以获得更全面及具有代表性的数据分析結果。
小编以大湾区城市的旅游资源中的人文资源题目为例:通过文献或资料查阅,大湾区城市的人文资源划分为历史文化、传统美食、民俗风情、地方特产、娱乐设施、宗教几个类别。
接下来,需要对每个选项以概念的形式来定义要害词,点击类目选项右侧的【要害词】,设置该选项对应的要害词。
例如大湾区城市的“历史文化”这个选项,综合大湾区城市的人文资源在历史文化方面的各个方面,可以总结出以下要害词组:
通过增加、删减等方式不断地完美类目选项要害词来提升机器编码的正确性。
2) 调整要害词的逻辑关系
由于语言的复杂性,单个要害词可能无法保证数据恰如其分地被检索出来。那么,我们还可以通过调整要害词的逻辑关系来提高机器编码的正确性。
DiVoMiner平台支持要害词设有多层逻辑关系。逻辑要害词有AND/OR/NOT(和/或/非)。
【OR】表达“或者”
【AND】表达“并列(和)”
【NOT】表达“不包括”
检索n个字之间的两个字符,要害词规则是“A B”~n。
例如:
“文化节 大湾区”~10,含义是检索10个字符内含有“文化节”和“大湾区”两个要害词的内容。
(底蕴 AND (历史 OR 文化)),含义是检索文中同时出现“底蕴”+“历史”,或者“底蕴”+“文化”两个要害词的内容,即可被编码为“历史文化”。
古镇 NOT 古镇郎中,含义是检索含有“古镇”这个要害词的内容,而不是“古镇郎中”这个要害词的内容。
注重:设置要害字时,连接要害字之间的逻辑词AND、OR、NOT大小写都可以,英文词组用英文引号""引用。括号需使用英文半角格式。
此外,我们还可以通过信度测试来检验机器编码的正确性。
本期内容就分享到这里,如有迷惘,可在评论区留言告诉小编。
如想了解更多操作方式,可登录DiVoMiner平台查阅《使用手册》。注册即免费使用!
DiVoMiner是按学术准则的量化内容分析法一站式平台,立刻注册,使用公益免费版,学好研究方法,做论文,出报告,研出必行!做原创内容,特别是研究内容,着实不易,敬请分享、点赞、关注!欢迎投稿,分享您的研究或探求!