yinbentan
2024-07-08 f4508a84236a4aff1c7b5bfa17a14a8ff95728ba
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
package blevex
 
import (
    "errors"
 
    "github.com/blevesearch/bleve/v2/analysis"
    "github.com/blevesearch/bleve/v2/registry"
)
 
// SegoAnalyzer from analysis.DefaultAnalyzer
type SegoAnalyzer struct {
    CharFilters  []analysis.CharFilter
    Tokenizer    *SegoTokenizer
    TokenFilters []analysis.TokenFilter
}
 
func (a *SegoAnalyzer) Analyze(input []byte) analysis.TokenStream {
    if a.CharFilters != nil {
        for _, cf := range a.CharFilters {
            input = cf.Filter(input)
        }
    }
    tokens := a.Tokenizer.Tokenize(input)
    if a.TokenFilters != nil {
        for _, tf := range a.TokenFilters {
            tokens = tf.Filter(tokens)
        }
    }
    return tokens
}
 
func analyzerConstructor(config map[string]interface{}, cache *registry.Cache) (analysis.Analyzer, error) {
    tokenizerName, ok := config["tokenizer"].(string)
    if !ok {
        return nil, errors.New("must specify tokenizer")
    }
    tokenizer, err := cache.TokenizerNamed(tokenizerName)
    if err != nil {
        return nil, err
    }
 
    segoTokenizer, ok := tokenizer.(*SegoTokenizer)
    if !ok {
        return nil, errors.New("tokenizer must be of type sego")
    }
    alz := &SegoAnalyzer{
        Tokenizer: segoTokenizer,
    }
    return alz, nil
}
 
func init() {
    registry.RegisterAnalyzer("sego", analyzerConstructor)
}