PrivateGPT
PrivateGPT - это инструмент для задавания вопросов к документам без подключения к интернету, используя мощь LLMs, с полной конфиденциальностью, так как данные не покидают локальную среду выполнения, позволяющий загружать документы и задавать вопросы без подключения к интернету, разработанный с использованием LangChain, GPT4All, LlamaCpp, Chroma и SentenceTransformers.
Как работает PrivateGPT
Используя локальные модели LangChain, вы можете запустить всю модель на своём ПК, и данные не будут покидать вашу среду. При этом разработчики гарантируют хорошую производительность.
ingest.py использует инструменты LangChain для анализа документа и локального создания вложений с помощью HuggingFaceEmbeddings (SentenceTransformers). Затем Он сохраняет результат в локальной векторной базе данных, используя хранилище векторов Chroma.
privateGPT.py использует локальный LLM на основе GPT4All-J или LlamaCpp для анализа вопросов и генерации ответов. Контекст для ответов извлекается из локального хранилища векторов с помощью поиска по сходству.
Устанавливаем PrivateGPT
Чтобы подготовить среду для запуска, сперва нужно установить все зависимости:
pip3 install -r requirements.txt
Затем загрузите модель LLM и поместите её в нужный вам каталог.
По умолчанию используется языковая модель ggml-gpt4all-j-v1.3-groovy.bin. Если вы хотите использовать другую модель, совместимую с GPT4All-J, просто загрузите её и укажите в своем файле .env.
После загрузки модели, переименуйте файл example.env в .env и отредактируйте содержимое файла по примеру ниже.
MODEL_TYPE: supports LlamaCpp or GPT4All
PERSIST_DIRECTORY: is the folder you want your vectorstore in
MODEL_PATH: Path to your GPT4All or LlamaCpp supported LLM
MODEL_N_CTX: Maximum token limit for the LLM model
EMBEDDINGS_MODEL_NAME: SentenceTransformers embeddings model name (see https://www.sbert.net/docs/pretrained_models.html)
TARGET_SOURCE_CHUNKS: The amount of chunks (sources) that will be used to answer a question
Примечание: из-за того, что модель загружает вложения SentenceTransformers, при первом запуске скрипта потребуется подключение к Интернету.
Как собрать свой датасет для PrivateGPT
Поместите все файлы с нужной вам информацией в каталог source_documents.
Вот, какие расширения поддерживает PrivateGPT:
- .csv: CSV,
- .docx: Word Document,
- .doc: Word Document,
- .enex: EverNote,
- .eml: Email,
- .epub: EPub,
- .html: HTML File,
- .md: Markdown,
- .msg: Outlook Message,
- .odt: Open Document Text,
- .pdf: Portable Document Format (PDF),
- .pptx : PowerPoint Document,
- .ppt : PowerPoint Document,
- .txt: Text file (UTF-8),
Выполните следующую команду, чтобы загрузить все данные в модель.
python ingest.py
Вывод должен выглядеть так:
Creating new vectorstore
Loading documents from source_documents
Loading new documents: 100%|██████████████████████| 1/1 [00:01<00:00, 1.73s/it]
Loaded 1 new documents from source_documents
Split into 90 chunks of text (max. 500 tokens each)
Creating embeddings. May take some minutes...
Using embedded DuckDB with persistence: data will be stored in: db
Ingestion complete! You can now run privateGPT.py to query your documents
См. также
Ссылки
- Проект PrivateGPT на сайте GitHub