4款开源的中文分词系统
2010年2月8日
没有评论
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词。以下介绍4款开源中文分词系统。
1、ICTCLAS – 全球最受欢迎的汉语分词系统
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词。以下介绍4款开源中文分词系统。
1、ICTCLAS – 全球最受欢迎的汉语分词系统
PHPShortener类支持对长网址编码为短网址,同时能将短网址解码为原来的网址。它是通过调用现有的网址缩短服务来完成的。目前支持了7个常用的国外网址缩短服务,包括Twitter中使用的tinyurl.com和biy.ly,且支持的服务在持续增加。
代码使用实例:
上传Excel文件并导入表格中的数据是信息系统中比较常用的一个功能。发现一个开源项目PHPExcelReader可以解决这个这个问题,来记录一笔。
项目网址:http://sourceforge.net/projects/phpexcelreader/
但其中的代码需要做一些修改才能适用于中文环境,罗列如下:
近期评论