技术使用 | 语料辅助查询与收集(一):自动化翻译数据摘集—以八爪鱼为例
1、语料辅助查询和收集的概念
译者进行翻译时离不开语料的处理和使用。
语料查询:除了词典,语料库(corpus)对于译员也是一大辅助。通过高效正确地查询语料,译者可以核实查证单词/短语的译法。
语料收集:语料收集(data collection)是2011年公布的语言学名词。从语言形式上分为书面语料和口语语料,从搜集方式上分为摘引文献、语言调查以及参考辞书等,从搜集手段上分为人工搜集和借助电子技术搜集。
2、进行语料辅助查询和收集的好处
(1) 客看性
进行语料辅助查询和收集可以更好地把握语言发展法则。进进计算机时代,人们可以借助语料对语言进行更大规模的抽样,这样计算出的频率正确性会更高。
(2) 科学性
进行语料辅助查询和收集可以使语言更具科学性。
语料辅助查询和收集扶助我们快速高效地搜索需要的信息。面对形形色色的工具,我们不需要贪多,要抉择适合自己的工具并娴熟运用,形成自己的一套语料处理体系,无论是对日常学习工作,还是对学术研究,都有重要的意义。
1、自动化数据摘集简介
依靠大数据技术和信息技术手段对海量数据进行自动化的摘集和整理工作,以供后续的分析和使用,可以提高数据摘集的效率、精准度、和完全性。
(1)用途
在翻译领域,可用于摘集术语,摘集译者招聘信息,摘集文本/平行文本建成语料库等。在其他领域可以用于如摘集购物评判,了解用户需求,推测股票走势,优化网站平台。
展开全文
(2)数据源
开放数据源:政府、高校、企业
爬虫挠取:网页、app
日志摘集:前端摘集、后端脚本
传感器:图像、测速、热敏
(3)摘集方法
1)使用Python编写爬虫代码(对没有编程基础的同学来说较为困难)
使用 Requests 爬取内容。
使用 XPath 解析内容。
使用 Pandas 保存数据。
2)使用常用摘集工具,如八爪鱼摘集器、火车摘集器、神箭手摘集器等。
2、常用摘集工具对比
(1)八爪鱼摘集器
价格:中等
功能:功能齐备,且其免费版功能齐备
界面:简洁
上手难易:简单
流程是否可视化:是
特征:
①无需编写代码,软件自动摘集主要内容,非常简单。
②免费数据摘集模板。
③无需登录即可使用。
注重事项:
①循环都是xpath元素定位,很轻易在翻页摘集时出现错误。
②摘集数据速度有时较慢。
(2)火车摘集器
价格:略高
功能:功能强大且复杂,包含数据处理、分析、挖掘等功能,但是免费版功能局限较大
界面:简洁、纯朴
上手难易:较难
流程是否可视化:是
特征:
①分布式摘集,摘集效率高。
②功能十分强大,覆盖数据分析处理等功能。
注重事项:
①适合有一定编程基础的人使用。
②功能多,比较占用内存和CPU。
(3)集搜客摘集器
价格:相对较低
功能:功能较为齐备
界面:简洁、纯朴
上手难易:简单
流程是否可视化:是
特征:
①可以挠取手机网站数据。
②有分词情感词标注功能,以及构建词云功能。
注重事项:
①没有云摘集功能。
②免费版中灵敏摘集导出需要应积分下载数据。
(4)后裔摘集器
价格:中等
功能:功能强大,且其免费版功能齐备
界面:简洁
上手难易:简单
流程是否可视化:是
特征:
①无需编写代码,比较简单。
②直接接进代理IP和自动登录验证码识别。
注重事项:
①有时无法完全挠取需要展开的内容。
②没有云摘集功能。
3、八爪鱼
(1)工具简介
整合了网页数据摘集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据摘集工具,已连续5年蝉联互联网数据摘集软件榜单第一名,截止2021年全球用户已突破300万。提供解决方案如下图:
免费版:内容摘集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以摘集。
付费版:云摘集,配置好摘集任务,交给八爪鱼的云端进行摘集。
(2)工具下载
进进官网即可下载使用免费版,无需注册。
(3)摘集分类
1)使用模板摘集(主要为跨境电商与新闻,暂无与翻译相关度较高的模板)
2)自定义数据摘集
表格摘集
列表数据摘集
列表+详情页摘集
翻页摘集
(4)实际操作
1)中华文化思想文化术语库:术语列表+详情页摘集
文字操作流程:
步骤一、开始摘集
在首页【输进框】中输进目的网址,点击【开始摘集】。
步骤二、建立【循环-点击元素-提取数据】
1、先建立一个【循环-提取数据】步骤。可以通过自动识别功能生成字段,如下图:
也可以手动抉择。选中页面上的列表,选中后会被绿色框框起来,同时出现黄色操作提示框,点击【选中全部】,之后按需要抉择相应字段。或者抉择所有相关字段后,抉择【选中全部】—【摘集数据】。
2、然后在循环的当前项中找到链接并选中,在弹出的操作提示框中,抉择【点击该链接】。可以看到流程中生成了1个【点击元素】步骤,八爪鱼自动跳转到了详情页,然后提取详情页数据即可。
步骤三、编辑字段
八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作。在字段名称处双击即可修改字段名;在右侧更多操作里面可以对字段进行删除、复制、格式化等操作。
步骤四、启动摘集
1、修改完字段名后,整个规则编辑完成,点击【保存】,然后【摘集】,再点击【启动本地摘集】启动后八爪鱼开始全自动摘集数据。(本地摘集是使用自己的电脑进行摘集,云摘集是使用八爪鱼提供的云服务器摘集)
2、摘集完成后,抉择适宜的导出方式导出数据。支持导出为Excel、CSV、HTML。这里导 出为Excel。
视频版:
2) 术语在线:术语表格+翻页摘集
文字操作流程
步骤一、开始摘集。在首页【输进框】中输进目的网址,点击【开始摘集】。
步骤二、建立一个【循环-提取数据】步骤。
1、可以摘用自动识别功能,如下:
会提供多种字段抉择,假如识别的字段不是我们倾向的,可以切换:
若手动抉择,先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩展选区】 按钮,选中至一整行。( 扩展的作用是,扩展选中的领域。当前选中的是一个单元格,选中的领域就扩展一个层级,即选中了一行)。
在提示框中,抉择【选中子元素】。这时八爪鱼又自动识别到页面中其他列表具有相同的【子元素】之后在提示框中,抉择【选中全部】。
步骤三、建立【翻页循环】
在【黄色操作提示框】中点击【设置翻页摘集】。然后占到并点击【下一页】按钮即可完成设置。
或者找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】。
特殊阐明:假如出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【】【后页】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的。
若使用自动识别功能,可以自动进行翻页摘集,如下图:
步骤四、启动摘集,同中华思想文化术语库。
视频版:
(5)优点
1) 与Python编写爬虫代码相比,操作简单,门槛低,完全可视化,对于翻译专业的学生来说非常友好。
2) 不管是文字图片,还是贴吧论坛,支持所有业务渠道的爬虫,称心各种摘集需求。
3) 支持多格式导出,包括Excel, CSV, HTML,JSON, 同时支持导出到数据库。
4) 即使是免费版,功能相比其他摘集器功能也强大很多,提供免费识别,无限度摘集等。
5) 自动识别功能可以扶助简化流程,快速提取数据。
(6)缺点
1)自动识别,数据摘集会出现速度较慢情状,在中华思想文化术语库的摘集中一分钟大约只能摘集10条数据。
2)在翻页摘集过程中可能会碰到一些问题。比如在配置完摘集流程初次进行翻页摘集时,得到的摘集结果可能存在大量重复,这是因为Xpath定位不好,只是循环提取前两页数据,而不会转到第三页及以后。
3)在需要登录才能摘集的页面中,即使切换至浏览器模式,也可能出现无法点击登录的现象。
参考资料:《翻译搜索指南》之系列配套视频(Ethan_LSJ):
特殊阐明:本文仅供学习交流,如有不妥欢迎后台联系小编。
特殊阐明:本文仅供学习交流,如有不妥欢迎后台联系小编。
- END -
原创作者:张淑琦 陈歆言 杜菁菁 冯文轶
内容完美及编辑:刘婉怡
审核:曹达钦 肖志清 李林 祝蕙兰