sco-bot: query.py annotate

annotate query.py @ 0:ca5da75f03ee

start

author	drewp@bigasterisk.com
date	Wed, 03 Jul 2024 19:16:28 -0700
parents
children	82428652cda1

rev	line source
0 ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	1 from pathlib import Path
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	2 from pprint import pprint
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	3 import re
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	4 import sys
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	5 from extract_pdf import phrasesFromFile
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	6 from pymilvus import model
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	7 from pymilvus import MilvusClient
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	8
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	9 q, = sys.argv[1:]
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	10
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	11 def cleanup(phrase: str) -> str:
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	12 p = phrase.replace('\n', ' ')
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	13 p = re.sub(r'\s+', ' ', p)
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	14 if len(p) < 5:
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	15 return ''
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	16 return p
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	17
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	18
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	19 embedding_fn = model.DefaultEmbeddingFunction()
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	20
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	21 client = MilvusClient("milvus_demo.db")
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	22
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	23 # client.drop_collection(collection_name="demo_collection")
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	24 # if not client.has_collection(collection_name="demo_collection"):
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	25 # client.create_collection(
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	26 # collection_name="demo_collection",
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	27 # dimension=768, # The vectors we will use in this demo has 768 dimensions
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	28 # )
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	29
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	30 # docs = []
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	31 # for i, (bbox, phrase) in enumerate(phrasesFromFile(Path("data") / "Meetings2226Minutes_20240702182359526 (1).pdf")):
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	32 # phrase = cleanup(phrase)
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	33 # print(f'{phrase=}')
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	34 # if not phrase:
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	35 # continue
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	36
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	37 # [vector] = embedding_fn.encode_documents([phrase])
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	38 # doc = {
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	39
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	40 # "id": i,
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	41 # "vector": vector,
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	42 # "text": phrase,
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	43 # }
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	44 # docs.append(doc)
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	45 # res = client.insert(collection_name="demo_collection", data=docs)
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	46 # print('insert:', res)
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	47
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	48 query_vectors = embedding_fn.encode_queries([q])
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	49
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	50 [query_result] = client.search(
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	51 collection_name="demo_collection",
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	52 data=query_vectors,
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	53 limit=15,
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	54 output_fields=["text"],
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	55 )
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	56
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	57 for row in query_result:
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	58 print(f'{row["distance"]:.6f} {row["entity"]["text"]}')
ca5da75f03ee start drewp@bigasterisk.com parents: diff changeset	59 # import ipdb; ipdb.set_trace()

Mercurial > code > home > repos > sco-bot

annotate query.py @ 0:ca5da75f03ee