报纸定位

注册

 

发新话题 回复该主题

从TwitterAmazon学习,90 [复制链接]

1#
白癜风的络氨酸酶活性治疗 https://disease.39.net/bjzkbdfyy/210706/9150251.html

题图来源:视觉中国

现在很少有人会知道,英语最开始是只是属于盎格鲁-撒克逊(Anglo-Saxon)民族的语言,因为现代英语已经演变成了一种全球化“混合语言”。

“预计在年,中国的英语学习人数将会超过5亿。这意味着在中国英语学习者的群体将超越美国总人口数。而在全球范围内,这一群体数字将会是20亿。”日前,牛津大学出版社全球业务总裁及词典部总裁CasperGrathwohl在接受钛媒体专访时说。

英语的全球化普及,年问世的牛津大学出版社的《牛津英语词典》(OxfordEnglishDictionary,OED)功不可没。它一直被视为最全面和权威的英语词典。不少对英语词汇的学术研究都以OED作为切入点。而词典对词汇拼法的要求,影响了不同地区的书面英语。

《牛津英语大词典》第一版(简装)

牛津大学出版社涉足印刷业最早可以追溯到年,是世界第二古老的出版社,仅次于英国剑桥大学出版社。一开始,只作为印刷圣经、祈祷书和学术著作的主要印刷商。在19世纪中后期,牛津大学出版社承印了《牛津英语词典》的项目,其业务也不断扩充,包括英语语言文字教学书籍等,自此便开启了全球化业务拓展的道路。

Grathwohl已经在牛津大学出版社工作超过20年。从纸质图书印刷到现在的在线词典,他亲眼见证了牛津大学出版社的历史,也见证了整个科技演变的过程及其对行业带来的影响。

经过九十年的发展,OED多语言词典的编撰有一套精密而复杂的流程。Grathwohl介绍说,首先在搜集语料的过程中,要了解细分市场的需求,接着,他们会根据市场需求做针对性的调研并且出具调研报告。在此基础上,团队会先做一些样本,利用样本做面对面小组的深入调研,以找到解决市场需求最佳方式。

完成以上学术方面的工作之后,出版社会还要做一些财务上的分析,判断是否具备足够大的细分市场,预计未来是否有足够的销售额,以及以是以电子版还是纸质版的形式面世。

在Grathwohl的推动下,“牛津英语词典”已经从纸质出版物转型成为了语言数据服务品牌。

牛津大学出版社全球业务总裁及词典部总裁CasperGrathwohl

“我们并不是想要把纸质的字典变成电子的字典,不是一个简单的重复过程,而是希望字典的内容和使用,能够融合在语言学习的过程当中。”Grathwohl说。

最开始,OED选择了和美国硅谷的一些全球性的科技公司进行合作。具体操作的手法是,将牛津大学出版社搜集的所有的语料,包括日常生活中接触到的英语词汇进行加工,把它们变成智能化的语言数据,除了词汇、语句、词义之外,还会打标签、加备注。

全球性的科技公司利用这些智能语言数据,开发成各种APP等数字产品和服务,增强英语学习者的日常体验。

在将语言数字化和智能化的过程中,最关键的是“过滤”——筛选出最精准和最常被大家使用的语言到底是什么。在虚拟世界中,数据非常庞大。通过累积专业的语料库,以及专业语言学家处理的语言信息,同时基于一些语义规则来对语言进行分析。同时,OED团队还会利用自然语言处理等科技手段在庞大的语料库抓取所需信息。

“为什么说这是非常困难的部分呢?因为我们处在与三十年前完全不同的情境,以往我们做编撰的时候,还会觉得素材不够,现在我们已经被大量的语言所淹没,数据有点太多了。”Grathwohl告诉钛媒体。

这也是他们选择与一些大型的全球性科技公司合作的原因。出版社将语言数据给到科技公司,帮助科技公司的AI进行学习,也协助他们进行一些翻译工作。与此同时,大型的科技公司也会建立一些新的工具分析实际语言使用情况,然后把数据反馈给出版社,让Grathwohl团队后期做出更加精准、更加符合现在实际情况的语言数据库,这是一个双向互赢的过程。

而随着科技的进步,语言的“迭代”速度也在加快,如何处理大量的语料?钛媒体了解到,Grathwohl团队目前主要从新闻报纸资料当中获取,也会参照Twitter这类社交网络,甚至还会

分享 转发
TOP
发新话题 回复该主题