视频简介
主讲人:郑啸
单位:中国地质调查局发展研究中心(全国地质资料馆)
发布时间:2020-05-09
期次:第3期第1单元
本报告介绍一种基于统计的新词发现方法。新词发现是一个非常重要的NLP(自然语言处理)课题,也是NLP的基础任务之一。地质资料的复杂性,一方面体现在多学科交融,涉及多个领域的专有词汇;另一方面,由于历史原因,老资料中的词法句法与现在不同,很多词句现在已不再使用,通用词库难以取得好的分词效果。基于统计的新词发现方法本质上属于一种典型的无监督式学习方法,不依托于任何已有词库,在目标文本对象中,仅通过统计字与字的共现关系,进而识别出可能的词汇,应用于地质资料文本可以较好地发现领域词汇,进而形成适用于地质资料分词的词库。
附件:
Copyright © 中国地质调查局发展研究中心(全国地质资料馆、自然资源部矿产勘查技术指导中心)
技术支持:北京博信高科技术有限公司