如何利用ICTCLAS进行高效准确的中文分词?

2026-04-11 23:500阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计643个文字,预计阅读时间需要3分钟。

如何利用ICTCLAS进行高效准确的中文分词?

中文分词领域,中国科学院开发的ICTCLAS占据重要一席,被誉为国际上最好的中文分词系统。ICTCLAS初期曾发布过一个免费版本(C++),采用自然语言处理开放资源许可公开。此后逐渐发展。


中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。

从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。

2009年中科院高先生针对 Lucene 用 Java 重写了 ICTCLAS 代码,采用 Apache Licence 2.0 协议公开了源码和词库数据,目前已并入了 Lucene contrib 代码树中。我花了些时间将这个版本转写为 C# 版。

下图表示了这些版本间的关系:(红色为商业软件,紫色为“自然语言处理开放资源许可证”,绿色为“Apache Licence 2.0”)

如何利用ICTCLAS进行高效准确的中文分词?

目前讨论较多的切词器,如庖丁解牛、盘古分词等,多采用查词典的方式切分,词典质量决定切分效果。

阅读全文

本文共计643个文字,预计阅读时间需要3分钟。

如何利用ICTCLAS进行高效准确的中文分词?

中文分词领域,中国科学院开发的ICTCLAS占据重要一席,被誉为国际上最好的中文分词系统。ICTCLAS初期曾发布过一个免费版本(C++),采用自然语言处理开放资源许可公开。此后逐渐发展。


中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。

从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。

2009年中科院高先生针对 Lucene 用 Java 重写了 ICTCLAS 代码,采用 Apache Licence 2.0 协议公开了源码和词库数据,目前已并入了 Lucene contrib 代码树中。我花了些时间将这个版本转写为 C# 版。

下图表示了这些版本间的关系:(红色为商业软件,紫色为“自然语言处理开放资源许可证”,绿色为“Apache Licence 2.0”)

如何利用ICTCLAS进行高效准确的中文分词?

目前讨论较多的切词器,如庖丁解牛、盘古分词等,多采用查词典的方式切分,词典质量决定切分效果。

阅读全文