中文自然语言处理时,英文单词和数字怎么处理?
这是一个基础的工程性问题。
目前所有的中文自然语言处理任务大致可以归结为「分」、「抽」、「审」、「写」。
「分」指词法分析(Lexical Analysis)、句子分析(Sentence Analysis)、语义分析(Semantic Analysis)、文本分类(Text Classification)、文本聚类(Text Clustering)。
「抽」指信息抽取(Information Extraction)。
「审」指文本纠错(Text Correction)、文本比对(Text Comparison)。
「写」指文本生成(Text Generation),机器翻译(Machine Translation)。
那么,主要在文本纠错、文本分类、文本聚类中需要对英文单词和数字处理。
在文本纠错中,实际需要对英文单词和数字处理,检查日期、单词拼写,这些可以借助正则表达式和词典等方式来处理。
在文本分类中,对于短文本分类,可以选择保留,用于提供额外的文本特征。
对于长文本分类,需要结合实际情况,例如在预测案件的刑期中,可以将涉案金额按照刑法中的规定进行归一化,譬如小于1千元的归一化到「_1000_」,大于1千元小于2000的归一化到「2000_」,英文单词可以直接归一化为「_E_」。
在文本情感分类中,则需要将英文单词保留,像sad,happy这类词和任务相关。
在文本聚类中与文本分类的处理方式类似。