索引
分词处理
分词处理是将句子或短语拆分为更小语言单元的过程,是文档索引化过程中的关键步骤。
**分词(Tokenization)**是指将句子或短语拆分成更小的语言单元(称为词元/token)的过程。这是 Meilisearch 引擎文档索引的第一步,也是影响搜索结果质量的关键因素。
将句子拆分成更小的片段需要理解单词的边界,这使得分词成为一项高度复杂且依赖语言的任务。Meilisearch 的解决方案是采用模块化分词器,它会根据检测到的语言执行不同的处理流程(称为管道/pipeline)。
这使得 Meilisearch 无需任何配置即可支持多种不同语言的搜索功能。
深入解析:Meilisearch 分词器
当你向 Meilisearch 索引添加文档时,分词过程由一个称为分词器的抽象接口处理。分词器负责按书写系统(例如拉丁字母、中文汉字)拆分每个字段,然后对文档字段的每个部分应用相应的处理管道。
我们可以将分词过程分解如下:
- 遍历文档,按文字系统拆分每个字段
- 逐部分重新处理文档,运行对应的分词管道(如果存在)
这些管道包含许多特定于语言的操作。目前我们提供了多个管道,包括用于以空格分隔单词语言的默认管道,以及专门用于中文、日语、希伯来语、泰语和高棉语的管道。
更多详细信息,请参阅分词器贡献指南。