Colette Logo

Colette: Self-Hosted Multimodal RAG

Search and interact locally with technical documents of any kind (doc, pptx, pdf, jpg, png, ...)

What is Colette?

Colette is an open-source self-hosted RAG and LLM serving software. It is well-suited for searching and interacting with technical documents that cannot be leaked to external APIs or online LLM services.

As the main core feature, Colette embeds a Vision-RAG (V-RAG) that transforms and analyzes all documents as images. This allows preserving and handling all visual elements such as images, figures, schemas, visual highlights, and layouts in documents. This is based on the idea that most documents are targeted at human eyes and thus can be more thoroughly analyzed by vision and multimodal LLMs.

Key Features

  • 📊 Vision Retrieval-Augmented Generation (V-RAG) combining vision retrievers with Vision Language Models (VLM).
  • 📚 Text-based RAG with unstructured text extraction, embeddings, and common LLMs.
  • 🚀 Multi-Model Support to switch between multiple embedders and inference VLLMs.
  • 🎨 Image Generation Integration using diffusers.
  • 🚀 Effortless Setup, dockerized, with proven performance on technical documentation containing images, figures, and schemas.

They Support Us

CNES Airbus Defense and Space

Ask for a Demo

Ask for a Customized Version

Jolibrain is an expert in AI critical application development for industry. We can implement a customized version tailored to your specific requirements.

Logo de Colette

Colette : RAG Multimodal Auto-hébergé

Recherchez et interagissez localement avec des documents techniques de tout type (doc, pptx, pdf, jpg, png, ...)

Qu'est-ce que Colette ?

Colette est un logiciel Open Source de RAG (Retrieval-Augmented Generation) et de déploiement de LLM auto-hébergé. Il est particulièrement adapté à la recherche et à l’interaction avec des documents techniques qui ne peuvent pas être exposés à des API externes ou utilisé avec des services de LLM en ligne.

La fonctionnalité principale de Colette repose sur un Vision-RAG (V-RAG) qui transforme et analyse tous les documents sous forme d’images. Cela permet de conserver et de traiter tous les éléments visuels tels que les images, figures, schémas, mises en valeur visuelles et mises en page des documents. Cette approche part du principe que la plupart des documents sont conçus pour être lus par des humains, et qu’ils peuvent donc être analysés de façon plus approfondie par des modèles de langage multimodaux et de vision.

Fonctionnalités principales

  • 📊 Système Vision Retrieval-Augmented Generation (V-RAG) combinant la recherche visuelle par similaritĂ© avec des modèles de langage visuel (VLM) pour la recherche documentaire.
  • 📚 Système RAG basĂ© sur le texte combinant extraction de texte non structurĂ©, embeddings textuels et LLMs classiques.
  • 🚀 Prise en charge multi-modèles pour les embedders et l’infĂ©rence avec des VLLMs.
  • 🎨 IntĂ©gration de la gĂ©nĂ©ration d’images avec diffusers.
  • 🚀 Installation facilitĂ©e, BasĂ©e Docker, avec de bons rĂ©sultats sur la plupart des corpus, y compris la documentation technique avec images, figures et schĂ©mas.

Ils nous soutiennent

CNES Airbus Defense and Space

Demander une démo

Demander un développement spécialisé

Jolibrain est l’expert du développement d’applications critiques d’IA pour l’industrie. Nous pouvons construire une version spécifique adaptée à vos besoins.