当前位置：首页 > 乒乓球资讯 > 正文内容

中文自然语言处理时，英文单词和数字怎么处理？

杏彩体育1年前 (2022-12-23)乒乓球资讯23

这是一个基础的工程性问题。

目前所有的中文自然语言处理任务大致可以归结为「分」、「抽」、「审」、「写」。

「分」指词法分析（Lexical Analysis）、句子分析（Sentence Analysis）、语义分析（Semantic Analysis）、文本分类（Text Classification）、文本聚类（Text Clustering）。

「抽」指信息抽取（Information Extraction）。

「审」指文本纠错（Text Correction）、文本比对（Text Comparison）。

「写」指文本生成（Text Generation），机器翻译（Machine Translation）。

那么，主要在文本纠错、文本分类、文本聚类中需要对英文单词和数字处理。

在文本纠错中，实际需要对英文单词和数字处理，检查日期、单词拼写，这些可以借助正则表达式和词典等方式来处理。

在文本分类中，对于短文本分类，可以选择保留，用于提供额外的文本特征。

对于长文本分类，需要结合实际情况，例如在预测案件的刑期中，可以将涉案金额按照刑法中的规定进行归一化，譬如小于1千元的归一化到「_1000_」，大于1千元小于2000的归一化到「2000_」，英文单词可以直接归一化为「_E_」。

在文本情感分类中，则需要将英文单词保留，像sad，happy这类词和任务相关。

在文本聚类中与文本分类的处理方式类似。

扫描二维码推送至手机访问。

分享给朋友：

返回列表