Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Thesis Proposal

No description
by

Js Yim

on 6 January 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Thesis Proposal

三、研究现状
四、研究主体及发展趋势
命名实体是命名实体识别的研究主体
1.英文
2.中文
Tsai提出基于最大熵的混合的方法
开题报告
颜嘉丝 通信五班 20100820519
自然语言理解的命名实体识别方法研究
二、研究目的
命名实体识别的主要任务是识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类
命名实体识别技术是信息抽取、信息检索、机器翻译、 问答系统等多种自然语言处理技术中必不可少的部分,在自然语言处理技术领域中占有举头轻重的地位
一、课题名称
英文命名实体的识别中只需考虑词本身的特征而不涉及分词问题, 因此实现难度相对较低。
中文内在的特殊性决定了在文本处理时首先必须进行词法分析, 中文命名实体识别的难度要比英文的难度大
Bikel等最早提出了基于隐马尔可夫模型的英文命名实体识别方法, 其在MUC- 6 测试文本集的测试结果为——英文地名、机构名和人名的识别精度分别达到了97%、94%和95%, 召回率分别达到了95%、94% 和94%
Liao提出了基于条件随机场模型, 采用半监督的算法进行命名实体识别
Rat inov等采用未标注文本训练词类模型(Word Class Model)的办法, 可以有效地提高NER系统的识别效率
冯元勇等提出基于单字提示特征的中文命名实体识别快速算法;
郑逢强等将<<知网>>中的义原作为特征加入到最大熵模型中, 以此来训练产生性能更好的模型。
发展趋势:
由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得较好的识别效果, 人名、地名、机构名较复杂, 因此近年来的研究主要以此为主
生物领域的实体识别比较活跃,这些实体中以机构名和生物实体识别难度最大,普遍存在嵌套和缩写的识别问题。
3大类(实体类、时间类和数字类)
7小类(人名、地名、机构名、时间、日期、货币和百分比)

原来的单独针对人名、地名等进行识别发展到
开始采用统一的方法同时进行各类中文命名实体的识别, 而且识别效果也得到了提高
五、研究难点
命名实体类型多样, 数量众多, 不断涌现新的命名实体
命名实体构成结构比较复杂, 某些类型的命名实体词的长度没有一定的限制, 不同的实体有不同的结构
在不同领域、场景下, 命名实体的外延有差异, 存在分类模糊的问题
在不同的文化、领域、背景下, 命名实体的外延有差异
Named entity recognition in natural language processing
命名实体识别过程常常要与中文分词、浅层
语法分析等过程相结合
六、主要技术方法
1.基于规则和词典的方法
2. 基于统计的方法
3. 混合方法
隐马尔可夫模型(Hidden MarkovMode,HMM )
最大熵(Maxmium Entropy, ME )
支持向量机( Support Vector Machine,SVM )
条件随机场( Conditional Random Fields,CRF)
基于统计的方法利用人工标注的语料进行训练
统计学习方法之间或内部层叠融合,层叠隐马尔可夫模型对中文进行分词。
规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练 得到下一级模型。
Full transcript