Warum es schwierig ist, mit der regulÀren Volltextsuche nach sehr kurzen Dokumenten zu suchen und was zu tun ist, wenn Sie dies möchten.

EinfĂŒhrung
Wir alle sind stÀndig mit der sogenannten Volltextsuche konfrontiert - das Finden von Dokumenten anhand eines Suchbegriffs. Das bekannteste Beispiel ist die Google-Suche.
. , , Elasticsearch. .
DD Planet B2B- Elasticsearch. ( ), .
, Elasticsearch, â , , . .
:
T0=" »",
T1=" ",
T2=" ",
:
"": {0, 1}
"": {0}
"": {1, 2}
"": {2}
â , . , . , , « ». «» {2}, «» â {0}. , . , {0, 2} c œ. , , TF-IDF, .
, , , -, :
- .
: « » « » « » , , « » « », « ». , .
. : , . , , TF-IDF, . - .
â , , « 4», «4», « », « 4» . .
â Elasticsearch . , , .
- .
, . , « » « Windows» «» .
NLP
NLP . NLP (Natural Language Processing) â , .
NLP - , - . , .
«»
NLP â Paraphrase Identification â (, ) , ( ). : « 17:00» « ». ? , .
. . DeepPavlov.ai [1], , . , .
. ( ), . .. -.
, DeepPavlov, â , .
,
, . ? , , Elasticsearch
: , . .
, : â ,
-
,d ( x , y ) = 0 .x = y -
d ( x , y ) = d ( y , x ) . - â
, , .d ( x , z ) †d ( x , y ) + d ( y , z ) .
? (Nearest neighbor search) â . vantage-point tree,
Vantage-point tree
, vantage-point tree [3]. ball-tree, . . , . (vantage-point) ( ).

, (
, K


K ,
â , . , , . cosine Doc2Vec â .
d ( x , y ) = f ( x , y ) + Δ â S D o c 2 V e c ( x â y )
Δ â .
. ? , , , float32. - .
x , , .y
d ( x , y ) = f ( x , y ) + f ( y , x )
. . ,d ( x , z ) †d ( x , y ) + d ( y , z )
x=" ", y=" ", z=" "
,
- . , Doc2Vec â .d ( x , z ) â„ d ( x , y ) + d ( y , z ) .
, , â , , . , : [2]. â , .
. ( ). , , ( ). , . «» .

( ), . .

. ? , . : , ? vantage-point tree , â vantage-point.

, [2], . , . .
« ». , . , .
. , . GitHub pip install nlp-text-search.
[1] http://docs.deeppavlov.ai/en/master/.
[2] Yianilos (1993). Data structures and algorithms for nearest neighbor search in general metric spaces. Fourth annual ACM-SIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, PA, USA. pp. 311â321. pny93. http://web.cs.iastate.edu/~honavar/nndatastructures.pdf .