L’évolution de la découverte de contenu similaire : Manticore Search dévoile le saut intelligent de « More Like This »
L'évolution de la « découverte de contenu similaire » : Manticore Search dévoile le bond en avant intelligent de « More Like This »
À l'heure de la surcharge informationnelle, la découverte de contenu ne se résume plus à une simple correspondance de mots-clés. La fonctionnalité « More Like This » (recommandation de contenus similaires), véritable fil discret reliant les utilisateurs à des informations précieuses qu'ils ne soupçonnent pas, connaît une refonte profonde, passant de la fréquence statistique à la compréhension sémantique. Le dernier article de blog de Manticore Search, intitulé « The Evolution of 'More Like This' », retrace méthodiquement l'histoire de cette fonctionnalité et montre comment les moteurs de recherche modernes redessinent les frontières de la pertinence. Bien que la discussion publique suscitée sur Hacker News soit encore modeste, la trame technologique qu'il révèle offre assurément une carte très instructive aux développeurs comme aux stratèges de contenu.
L'ADN textuel et les limites du « More Like This » classique
À ses débuts, le « More Like This » reposait principalement sur le modèle TF‑IDF (fréquence de terme – fréquence inverse de document) et sur les modèles d'espace vectoriel. Le moteur extrayait les termes caractéristiques à haute fréquence du document cible, les pondérait selon leur rareté, puis repêchait dans une vaste base les documents voisins présentant une distribution de fréquence similaire. Ce modèle a souvent fait ses preuves dans les scénarios d'agrégation d'actualités ou de recherche documentaire, mais ses limites sont évidentes : il ne reconnaît que la lettre, sans en saisir le sens. Un article portant sur « les résultats financiers d'Apple » et un autre sur « une recette de tarte aux pommes » pouvaient être jugés similaires par l'algorithme en raison de la forte occurrence du mot « pomme ». La simple correspondance lexicale peine à traiter les substitutions synonymiques ou la levée d'ambiguïté contextuelle, et elle est incapable d'appréhender la tonalité émotionnelle qui se dégage d'un paragraphe.
L'éveil sémantique sous l'effet de la vectorisation
Avec la démocratisation de l'apprentissage profond et des modèles de langue pré‑entraînés, le « More Like This » s'est doté de capacités de recherche par vecteurs denses. Le texte est projeté dans un espace à haute dimension sous forme de coordonnées sémantiques, où la distance reflète directement la proximité de sens. Cette mutation rend possibles la correspondance multilingue et l'association conceptuelle : pour une recherche sur « ralentissement macroéconomique », le moteur peut tout à fait remonter des analyses qui ne contiennent pas ce terme mais qui discutent en profondeur de « l'affaiblissement de la consommation » ou des « anticipations de baisse des taux ». Moteur de recherche open source alliant recherche plein texte et recherche vectorielle, Manticore Search se situe précisément sur la crête de cette vague : il conserve le contrôle précis du filtrage par mots-clés traditionnel tout en permettant des recherches de similarité sémantique par KNN vectoriel, conférant ainsi à la découverte de contenu similaire à la fois une « explicabilité » et une capacité de généralisation.
Recherche hybride : trouver l'optimum entre précision et flou
Le cœur de l'évolution mis en avant par le blog de Manticore n'est pas un simple remplacement d'algorithme, mais une pratique d'ingénierie de la recherche hybride (Hybrid Search). Idéalement, le « More Like This » devrait pouvoir fonctionner en parallèle : d'abord capturer un ensemble de candidats proches sur le plan thématique grâce à une recherche vectorielle, puis réordonner et filtrer avec précision ces résultats à l'aide des scores de termes issus de l'index inversé, quitte à intégrer des signaux de comportement utilisateur comme facteurs d'ajustement fin. Cette architecture qui combine représentations éparses et denses offre aux petites et moyennes équipes une infrastructure de recommandation peu coûteuse et accessible dans le monde de l'open source. Sans dépendre d'API de recommandation commerciales onéreuses, les développeurs peuvent déployer rapidement, sur des scénarios comme les fiches produit e‑commerce, la collaboration autour d'une base de connaissances ou les fils d'actualité de médias, un module de recommandation similaire qui comprend à la fois la sémantique et respecte les contraintes imposées par des mots-clés.
L'écosystème open source et l'explicabilité future
La démarche de Manticore Search répond également à une difficulté centrale : au moment où l'explicabilité des recommandations devient un facteur déterminant pour la conformité et la confiance des utilisateurs, un rappel vectoriel totalement opaque peine à convaincre l'utilisateur final. Le moteur permet, lorsqu'il renvoie des résultats « More Like This », de laisser apparaître quels mots correspondants ou quelles métadonnées ont déclenché l'association, rendant ainsi possible un réglage collaboratif humain‑machine. En regardant vers l'avenir, la similarité multimodale se profile déjà à l'horizon : si un article de fond riche en texte et en images peut calculer sa similarité en fusionnant les vecteurs de description des images qu'il contient avec ses vecteurs textuels, la précision de la découverte de contenu fera alors un nouveau bond en avant.
Dans l'ensemble, l'histoire évolutive du « More Like This » est un condensé du passage de la « correspondance orthographique » à la « compréhension de l'intention ». La solution open source de Manticore Search apporte peut-être à cette capacité une annotation technique teintée de démocratisation – permettant à toute organisation disposant de données structurées ou non structurées de gérer son propre univers de similarité. Pour les professionnels du contenu, comprendre cette évolution en profondeur, c'est détenir la clé essentielle pour optimiser le temps de consultation et le taux de lecture approfondie des utilisateurs.