PrivateGPT: различия между версиями
Dzmuh (обсуждение | вклад) |
Dzmuh (обсуждение | вклад) |
||
| Строка 33: | Строка 33: | ||
Примечание: из-за того, что модель загружает вложения SentenceTransformers, при первом запуске скрипта потребуется подключение к Интернету. | Примечание: из-за того, что модель загружает вложения SentenceTransformers, при первом запуске скрипта потребуется подключение к Интернету. | ||
== Как собрать свой датасет для PrivateGPT == | |||
Поместите все файлы с нужной вам информацией в каталог source_documents. | |||
Вот, какие расширения поддерживает PrivateGPT: | |||
* .csv: CSV, | |||
* .docx: Word Document, | |||
* .doc: Word Document, | |||
* .enex: EverNote, | |||
* .eml: Email, | |||
* .epub: EPub, | |||
* .html: HTML File, | |||
* .md: Markdown, | |||
* .msg: Outlook Message, | |||
* .odt: Open Document Text, | |||
* .pdf: Portable Document Format (PDF), | |||
* .pptx : PowerPoint Document, | |||
* .ppt : PowerPoint Document, | |||
* .txt: Text file (UTF-8), | |||
Выполните следующую команду, чтобы загрузить все данные в модель. | |||
<syntaxhighlight lang="bash"> | |||
python ingest.py | |||
</syntaxhighlight> | |||
Вывод должен выглядеть так: | |||
<syntaxhighlight lang="bash"> | |||
Creating new vectorstore | |||
Loading documents from source_documents | |||
Loading new documents: 100%|██████████████████████| 1/1 [00:01<00:00, 1.73s/it] | |||
Loaded 1 new documents from source_documents | |||
Split into 90 chunks of text (max. 500 tokens each) | |||
Creating embeddings. May take some minutes... | |||
Using embedded DuckDB with persistence: data will be stored in: db | |||
Ingestion complete! You can now run privateGPT.py to query your documents | |||
</syntaxhighlight> | |||
== См. также == | == См. также == | ||
Версия от 16:21, 15 января 2024
PrivateGPT - это инструмент для задавания вопросов к документам без подключения к интернету, используя мощь LLMs, с полной конфиденциальностью, так как данные не покидают локальную среду выполнения, позволяющий загружать документы и задавать вопросы без подключения к интернету, разработанный с использованием LangChain, GPT4All, LlamaCpp, Chroma и SentenceTransformers.
Как работает PrivateGPT
Используя локальные модели LangChain, вы можете запустить всю модель на своём ПК, и данные не будут покидать вашу среду. При этом разработчики гарантируют хорошую производительность.
ingest.py использует инструменты LangChain для анализа документа и локального создания вложений с помощью HuggingFaceEmbeddings (SentenceTransformers). Затем Он сохраняет результат в локальной векторной базе данных, используя хранилище векторов Chroma.
privateGPT.py использует локальный LLM на основе GPT4All-J или LlamaCpp для анализа вопросов и генерации ответов. Контекст для ответов извлекается из локального хранилища векторов с помощью поиска по сходству.
Устанавливаем PrivateGPT
Чтобы подготовить среду для запуска, сперва нужно установить все зависимости:
pip3 install -r requirements.txt
Затем загрузите модель LLM и поместите её в нужный вам каталог.
По умолчанию используется языковая модель ggml-gpt4all-j-v1.3-groovy.bin. Если вы хотите использовать другую модель, совместимую с GPT4All-J, просто загрузите её и укажите в своем файле .env.
После загрузки модели, переименуйте файл example.env в .env и отредактируйте содержимое файла по примеру ниже.
MODEL_TYPE: supports LlamaCpp or GPT4All
PERSIST_DIRECTORY: is the folder you want your vectorstore in
MODEL_PATH: Path to your GPT4All or LlamaCpp supported LLM
MODEL_N_CTX: Maximum token limit for the LLM model
EMBEDDINGS_MODEL_NAME: SentenceTransformers embeddings model name (see https://www.sbert.net/docs/pretrained_models.html)
TARGET_SOURCE_CHUNKS: The amount of chunks (sources) that will be used to answer a question
Примечание: из-за того, что модель загружает вложения SentenceTransformers, при первом запуске скрипта потребуется подключение к Интернету.
Как собрать свой датасет для PrivateGPT
Поместите все файлы с нужной вам информацией в каталог source_documents.
Вот, какие расширения поддерживает PrivateGPT:
- .csv: CSV,
- .docx: Word Document,
- .doc: Word Document,
- .enex: EverNote,
- .eml: Email,
- .epub: EPub,
- .html: HTML File,
- .md: Markdown,
- .msg: Outlook Message,
- .odt: Open Document Text,
- .pdf: Portable Document Format (PDF),
- .pptx : PowerPoint Document,
- .ppt : PowerPoint Document,
- .txt: Text file (UTF-8),
Выполните следующую команду, чтобы загрузить все данные в модель.
python ingest.py
Вывод должен выглядеть так:
Creating new vectorstore
Loading documents from source_documents
Loading new documents: 100%|██████████████████████| 1/1 [00:01<00:00, 1.73s/it]
Loaded 1 new documents from source_documents
Split into 90 chunks of text (max. 500 tokens each)
Creating embeddings. May take some minutes...
Using embedded DuckDB with persistence: data will be stored in: db
Ingestion complete! You can now run privateGPT.py to query your documents
См. также
Ссылки
- Проект PrivateGPT на сайте GitHub