一、自定义词库针对一些特殊的词语在分词的时候也需要能够识别。例如：公司产品的名称或者网络上新流行的词语假设我们公司开发了一款新产品，命名为：数据大脑，我们希望ES在分词的时候能够把这个产品名称直接识别成一个词语。现在使用ik分词器测试一下分词效...

自然语言处理中“中文分词”技术中“自动切分”的几点理解

本文主要针对其中最常用的一套《北大规范》为依据，来讲解中文词汇自动切分的几个重点流程。概述在人工智能中，自然语言处理是一门极其深奥的领域，自然语言处理在广义上分为两部分，第一部分自然语言理解，是指让电...

怎样实现基于Trie树和字典的分词功能

前言目前做分词比较流行的是用深度学习来做，比如用循环神经网络和条件随机场，也有直接用条件随机场或隐马尔科夫模型的。前面也实现过上面几种，效果挺不错，基于隐马尔科夫模型的差一点，条件随机场的效果较好，而...

前言在做文本挖掘时，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但有时也需要把多个单词做为一个分词，比如一些名词如“NewYork”，需要做为一个词看待。而中文由于没有空格，分词...

前言在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“NewYork”，需要做为一个词看待。而中文由于没有空...

“结巴”中文分词：做最好的Python中文分词组件。jieba（结巴）是一个强大的分词库，完美支持中文分词。之前写毕业论文的时候用到过，现在学习NLP做一个小结，分享给大家。安装安装简单：pipins...

K-Means是常用的聚类算法，与其他聚类算法相比，其时间复杂度低，聚类的效果也还不错，这里简单介绍一下k-means算法，下图是一个手写体数据集聚类的结果。基本思想 k-mea…