Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 14|回复: 0

今日访谈1网页文本预处理方法有几种-

[复制链接]

5万

主题

0

回帖

15万

积分

超级版主

Rank: 8Rank: 8

积分
155792
发表于 2024-8-23 05:41:17 | 显示全部楼层 |阅读模式

分词算法概述cdn加速的相关知识也可以到网站具体了解一下,有专业的客服人员为您全面解读,相信会有一个好的合作!https://online.wangsu.com/

分词方法根据语种连续性特点的不同而不同:英文分词、英文文本相邻两词之间是由空格或标点符号间隔的,是一种天然的分词。
英文分词
是指通过策略还原英文单词原型,或者说,是将很多基于某个单词的变种变为同一个原型。根据语法需要,英文文本单词的变换形式多种多样,通过英文分词算法处理得到单词原型。虽然英文不涉及分词,但可以通过划分短语来取得更好的效果,目前英国剑桥大学计算机验室的算法是比较好的英文分词算法。




中文分词
中文分词技术属于自然语言处理技术的范畴,是信息检索、信息挖掘的研究基础。由于中文文本与西方语言文本不同,是一串间隔的连续的攻字字符文本语言,即一个句子里的词与词之间没有空格或分隔符。同时,由于中文语法复杂,句式灵活,同义词繁多,所以中文文本语句的切分方法也很灵活大多数分词算法是为中文文本设计的。文本分词过程是计算机通过程序在中文文本的词与词之间自动加入空格,将间隔的字序列按照一定的规则切割成单独的词的过程,它是中文文本的特征选择和量化的基础,分词精度会影响到后面的文本分类算法。目前,比较成熟的分词算法有种:基于词典的分词方法,基于理解的分词方法和基于统计的分词。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|台山市啃蝌蚕丝有限公司

GMT+8, 2024-10-31 17:31 , Processed in 0.049104 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表