sco-bot: webvtt_1.py annotate

annotate webvtt_1.py @ 4:0e33c65f1904

playing with extractors

author	drewp@bigasterisk.com
date	Sat, 06 Jul 2024 16:42:36 -0700
parents	ba1ce5921a4b
children

rev	line source
3 ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	1 import webvtt
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	2 # for caption in webvtt.read('data/Albany City Council - June 17, 2024 [Ywf6cOduPNI].en.vtt'):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	3 # print(caption.start)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	4 # print(caption.end)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	5 # print(caption.text)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	6
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	7 vtt=webvtt.read('data/Albany City Council - June 17, 2024 [Ywf6cOduPNI].en.vtt')
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	8
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	9 # for line in vtt[0].lines:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	10 # print(line)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	11
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	12
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	13 # for caption in vtt.iter_slice(start='00:01:11.000', end='00:02:27.000'):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	14 # print(caption.start)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	15 # print(caption.end)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	16 # print(caption.text)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	17
4 0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	18 ##https://stackoverflow.com/questions/51784232/how-do-i-convert-the-webvtt-format-to-plain-text
3 ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	19 transcript = ""
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	20
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	21 lines = []
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	22 for line in vtt:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	23 # Strip the newlines from the end of the text.
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	24 # Split the string if it has a newline in the middle
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	25 # Add the lines to an array
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	26 lines.extend(line.text.strip().splitlines())
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	27
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	28 # Remove repeated lines
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	29 previous = None
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	30 for line in lines:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	31 if line == previous:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	32 continue
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	33 transcript += " " + line
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	34 previous = line
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	35
4 0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	36 #print(transcript)
3 ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	37
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	38 # text = lobj.get_text()
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	39 # for sentence in nltk.sent_tokenize(text):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	40 # sentence = re.sub(r'\s+', ' ', sentence).strip()
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	41 # if len(sentence) < 5:
4 0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	42 # continue
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	43
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	44 from langchain import RecursiveCharacterTextSplitter ;
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	45
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	46 const text = transcript
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	47 const splitter = new RecursiveCharacterTextSplitter({
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	48 chunkSize: 10,
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	49 chunkOverlap: 1,
0e33c65f1904 playing with extractors drewp@bigasterisk.com parents: 3 diff changeset	50 });

Mercurial > code > home > repos > sco-bot

annotate webvtt_1.py @ 4:0e33c65f1904