分詞與向量化流程

步驟 1: 原始文字

原始輸入

步驟 2: Jieba 分詞

Jieba 處理 (分詞 + 過濾)

輸出 Tokens

步驟 3: Word2Vec 模型處理 (概念圖示)

將步驟 2 產生的 Tokens 輸入 Word2Vec 模型進行訓練。

Tokens 輸入

Word2Vec 模型參數: size=100, win=2, min=1

向量儲存於模型

模型根據詞語上下文學習向量表示。

步驟 4: 輸出向量

從訓練好的模型

取出每個詞的向量

Token 與向量

原始程式：https://gist.github.com/peterju/722a1e4e7f337d91ee5881a260de00d2