SentenceTransformer: BAAI/bge-m3
使用 L2 正規化生成單位向量(長度為 1)。
向量資料庫建立時要決定使用哪種索引類型,一般而言有計算距離與計算相似度兩種方式
這裡選擇 使用內積索引(IndexFlatIP)儲存句子的向量而非 L2 距離,是因為向量已正規化,內積等於計算兩個向量的 Cosine 相似度。
原始程式:https://gist.github.com/peterju/00979bb20f2f0a8b193e2b0c34c21338