zhangqian
2023-11-17 844f645172ebde7e94307004647e4a41f71030be
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
package blevex
 
import (
    "errors"
 
    "github.com/blevesearch/bleve/v2/analysis"
    "github.com/blevesearch/bleve/v2/registry"
)
 
func analyzerConstructor(config map[string]interface{}, cache *registry.Cache) (analysis.Analyzer, error) {
    tokenizerName, ok := config["tokenizer"].(string)
    if !ok {
        return nil, errors.New("must specify tokenizer")
    }
    tokenizer, err := cache.TokenizerNamed(tokenizerName)
    if err != nil {
        return nil, err
    }
 
    jbtk, ok := tokenizer.(*JiebaTokenizer)
    if !ok {
        return nil, errors.New("tokenizer must be of type jieba")
    }
    alz := &JiebaAnalyzer{
        Tokenizer: jbtk,
    }
    return alz, nil
}
 
func init() {
    registry.RegisterAnalyzer("gojieba", analyzerConstructor)
}
 
// JiebaAnalyzer from analysis.DefaultAnalyzer
type JiebaAnalyzer struct {
    CharFilters  []analysis.CharFilter
    Tokenizer    *JiebaTokenizer
    TokenFilters []analysis.TokenFilter
}
 
func (a *JiebaAnalyzer) Analyze(input []byte) analysis.TokenStream {
    if a.CharFilters != nil {
        for _, cf := range a.CharFilters {
            input = cf.Filter(input)
        }
    }
    tokens := a.Tokenizer.Tokenize(input)
    if a.TokenFilters != nil {
        for _, tf := range a.TokenFilters {
            tokens = tf.Filter(tokens)
        }
    }
    return tokens
}
 
func (a *JiebaAnalyzer) Free() {
    if a.Tokenizer != nil {
        a.Tokenizer.Free()
    } else {
        panic("JiebaAnalyzer.Tokenizer is nil, this should not happen")
    }
}