3.10.4.1.     词法分析

一、功能描述

·                                 词法分析接口向用户提供分词、词性标注、专名识别三大功能。

·                                 能够识别出文本串中的基本词汇(分词),对这些词汇进行重组、标注组合后词汇的词性,并进一步识别出命名实体。

基本

·                                 显示名称:活动的显示名称。

输入

·                                 APIKey您的APIKey

·                                 SecretKey您的SecretKey

·                                 文本:待分析文本(目前仅支持GBK编码),长度不超过65536字节

输出

·                                 结果词法分析结果。

三、具体步骤
1、关于如何取得APIKeySecretKey,请参考4.2.6如何调用百度云OCR

2、在使用此组件时,需要输入待分析文本,同时需要创建一个String类型的变量用于接收输出结果,输出结果如图3.10.4.1-1

3.10.4.1-1

3、输出结果详细信息如下:

·                                 log_id:唯一的log id,用于问题定位。

·                                 text:原始单条请求文本。

·                                 items:词汇数组,每个元素对应结果中的一个词。

·                                 item:词汇的字符串。

·                                 ne:命名实体类型,命名实体识别算法使用。词性标注算法中,此项为空串。

·                                 pos:词性,词性标注算法使用。命名实体识别算法中,此项为空串。

·                                 byte_offset:在Text中的字节级offset(使用GBK编码)。

·                                 byte_length:字节级length(使用GBK编码)。

·                                 uri:链指到知识库的URI,只对命名实体有效。对于非命名实体和链接不到知识库的命名实体,此项为空串。

·                                 formal:词汇的标准化表达,主要针对时间、数字单位,没有归一化表达的,此项为空串。

·                                 basic_words:基本词成分。

·                                 loc_details:地址成分,非必需,仅对地址型命名实体有效,没有地址成分的,此项为空数组。

·                                 type:成分类型,如省、市、区、县。

·                                 byte_offset:在item中的字节级offset(使用GBK编码)。

·                                 byte_length:字节级length(使用GBK编码)。

词性缩略说明,如图3.10.4.1-2

3.10.4.1-2

专名识别缩略词含义,如图3.10.4.1-3

3.10.4.1-3