中文心理问答场景下的 Tokenizer 选型实验

在做中文心理健康问答（PsyQA）相关的研究时，我们发现不同 tokenizer 对下游任务的影响远超预期。这篇文章记录了我们对多种 tokenizer 在中文心理咨询文本上的评测结果。

背景

心理咨询场景的文本有几个特点：

这些特点对 tokenizer 的分词粒度和词表覆盖率提出了挑战。

我们从三个维度比较了不同 tokenizer 的表现：

序列长度：Qwen 的大词表在中文文本上有明显优势，平均 token 数比 Llama 2 少 42%。这意味着在相同上下文窗口下，Qwen 能处理更长的咨询对话。

语义完整性：以”焦虑症”为例，BERT 会切分为 ["焦", "虑", "症"]，而 Qwen 保持为 ["焦虑症"] 一个 token。对于心理学专业术语，大词表的优势非常明显。

下游任务：在 PsyQA 问答匹配任务上，Qwen tokenizer + 微调后的效果最好，比 BERT tokenizer 方案高出 3.7 个百分点。

对于中文专业领域的 NLP 任务，tokenizer 的选择不应该被忽视。词表大小和训练语料的覆盖范围直接影响模型的天花板。在心理咨询场景中，我们推荐使用词表较大且中文优化过的 tokenizer，如 Qwen 或 ChatGLM 系列。