Adding linear retriever to support weighted sums of sub-retrievers #120222

pmpailis · 2025-01-15T17:32:41Z

This PR adds a new linear retriever to facilitate hybrid search, that would be able to linearly combine the results of other sub-retrievers and compute the final score of a document based on the weighted sum of each sub-components.

Each sub-component can specify the following elements:

retriever -> specifies how we will compute the top documents
normalizer -> specifies how we want to normalize the top documents for this retriever (so that we can ensure that all scores fall within the same range)
weight -> the weight for the normalized score if the final weighted sum computation

Pagination is similar to that of rrf's retriever, i.e. we compute the global rank_window_size docs and pagination is only available within these bounds.

So, working through an example, let's say that we perform a hybrid search query where:

we want to run a simple string query through a standard retriever, and normalize the scores to a [0, 1] range
we want to run knn search through the knn retriever, without normalizing the documents as well
compute the final score for the retriever as score = 1.5 * standard + 2.5 * knn

Sample syntax:

GET /retrievers_example/_search
{
    "retriever": {
        "linear": {
            "retrievers": [
                {
                        "retriever": {
                            "standard": {
                                "query": {
                                    "simple_query_string": {
                                        "query": "artifical intelligence in medicine",
                                        "fields": [
                                            "text"
                                        ]
                                    }
                                }
                            }
                        },
                        "weight": 1.5,
                        "normalizer": "minmax"
                },
                {
                        "retriever": {
                            "knn": {
                                "field": "vector",
                                "query_vector": [
                                    0.23,
                                    0.67,
                                    0.89
                                ],
                                "k": 3,
                                "num_candidates": 5
                            }
                        },
                        "weight": 2.5
                }
            ],
            "rank_window_size": 10
        }
    }
}

github-actions · 2025-01-15T17:32:55Z

Documentation preview:

✨ Changed pages

…rch into add_linear_retriever

elasticsearchmachine · 2025-01-16T07:11:35Z

Hi @pmpailis, I've created a changelog YAML for you.

…rch into add_linear_retriever

benwtrent

Looking much better. I have a concern around testing:

Do we have a test that specifically exercises the path when the different retrievers return different doc IDs? (e.g. they match non-overlapping doc sets).

...lugin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/LinearRetrieverBuilder.java

…nterleaved results

pmpailis · 2025-01-27T17:14:08Z

Do we have a test that specifically exercises the path when the different retrievers return different doc IDs? (e.g. they match non-overlapping doc sets).

Added a test to account for this in ea1787f

...gin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/LinearRetrieverComponent.java

...plugin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/MinMaxScoreNormalizer.java

benwtrent

elasticsearchmachine · 2025-01-28T17:34:34Z

💔 Backport failed

Status	Branch	Result
❌	8.x	Commit could not be cherrypicked due to conflicts

You can use sqren/backport to manually backport by running backport --upstream elastic/elasticsearch --pr 120222

pmpailis added 12 commits January 8, 2025 00:33

iter

825683f

Merge remote-tracking branch 'origin/main' into add_linear_retriever

6968760

Merge remote-tracking branch 'origin/main' into add_linear_retriever

6712fc6

iter

466c026

Merge remote-tracking branch 'origin/main' into add_linear_retriever

a4259cd

iter

a7da4f3

iter

02db9d0

iter

d64effa

iter

b945acf

iter

0c1b235

iter

c97d27b

iter

2d78404

elasticsearchmachine added the v9.0.0 label Jan 15, 2025

pmpailis and others added 4 commits January 15, 2025 19:34

Merge remote-tracking branch 'origin/main' into add_linear_retriever

c69b75b

[CI] Auto commit changes from spotless

06d727a

iter

822ff1d

Merge branch 'add_linear_retriever' of github.com:pmpailis/elasticsea…

f2eb82c

…rch into add_linear_retriever

pmpailis added >enhancement :Search Relevance/Ranking Scoring, rescoring, rank evaluation. :Search Relevance/Search Catch all for Search Relevance v8.18.0 labels Jan 16, 2025

Update docs/changelog/120222.yaml

020cd78

pmpailis added the auto-backport Automatically create backport pull requests when merged label Jan 16, 2025

pmpailis added 5 commits January 16, 2025 09:21

iter

8d0583a

iter

8ec4110

iter

ceaf3b5

iter

ed78bf2

iter

a70b0d6

pmpailis added 5 commits January 23, 2025 15:44

updating parsing to use a static parser

d961f22

Merge branch 'add_linear_retriever' of github.com:pmpailis/elasticsea…

7a31b09

…rch into add_linear_retriever

Merge branch 'main' into add_linear_retriever

f973d73

avoid populating LinearRankDoc metadata if not explain

3640ae1

Merge branch 'main' into add_linear_retriever

da84e03

andersfylling mentioned this pull request Jan 27, 2025

weighted reciprocal rank fusion #111623

Open

benwtrent reviewed Jan 27, 2025

View reviewed changes

...lugin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/LinearRetrieverBuilder.java Outdated Show resolved Hide resolved

pmpailis added 2 commits January 27, 2025 19:06

addressing PR comments - simplifying linear score computation

9259159

addressing PR comments - adding yaml test for linear retriever with i…

ea1787f

…nterleaved results

pmpailis commented Jan 27, 2025

View reviewed changes

...gin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/LinearRetrieverComponent.java Show resolved Hide resolved

pmpailis commented Jan 27, 2025

View reviewed changes

...plugin/rank-rrf/src/main/java/org/elasticsearch/xpack/rank/linear/MinMaxScoreNormalizer.java Outdated Show resolved Hide resolved

pmpailis added 3 commits January 27, 2025 20:52

removing custom min max options for normalizer

ce8f60f

adding assertion for negative weights

2bda448

Merge branch 'main' into add_linear_retriever

669e94d

benwtrent approved these changes Jan 27, 2025

View reviewed changes

pmpailis added 10 commits January 27, 2025 23:37

updating tests after latest changes

8b07ea5

Merge branch 'main' into add_linear_retriever

ccc2f8a

Update common-parms.asciidoc

3ba0587

Update retrievers-examples.asciidoc

3237ef5

Merge branch 'main' into add_linear_retriever

a7425c4

setting knn field to flat

173f254

adding ids to parameter sections for retriever docs

42c543a

Merge branch 'main' into add_linear_retriever

9b40cf6

Merge branch 'main' into add_linear_retriever

95842cc

Merge branch 'main' into add_linear_retriever

21bbb92

pmpailis merged commit 375814d into elastic:main Jan 28, 2025
16 checks passed

elasticsearchmachine added the backport pending label Jan 28, 2025

pmpailis mentioned this pull request Jan 28, 2025

[8.x] Backporting adding linear retriever to support weighted sums of sub-retrievers #121076

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adding linear retriever to support weighted sums of sub-retrievers #120222

Adding linear retriever to support weighted sums of sub-retrievers #120222

pmpailis commented Jan 15, 2025 •

edited

Loading

github-actions bot commented Jan 15, 2025

elasticsearchmachine commented Jan 16, 2025

benwtrent left a comment

pmpailis commented Jan 27, 2025

benwtrent left a comment

elasticsearchmachine commented Jan 28, 2025

Adding linear retriever to support weighted sums of sub-retrievers #120222

Adding linear retriever to support weighted sums of sub-retrievers #120222

Conversation

pmpailis commented Jan 15, 2025 • edited Loading

github-actions bot commented Jan 15, 2025

elasticsearchmachine commented Jan 16, 2025

benwtrent left a comment

Choose a reason for hiding this comment

pmpailis commented Jan 27, 2025

benwtrent left a comment

Choose a reason for hiding this comment

elasticsearchmachine commented Jan 28, 2025

💔 Backport failed

pmpailis commented Jan 15, 2025 •

edited

Loading