sco-bot: webvtt_1.py annotate

annotate webvtt_1.py @ 3:ba1ce5921a4b

start

author	drewp@bigasterisk.com
date	Wed, 03 Jul 2024 20:20:18 -0700
parents
children	0e33c65f1904

rev	line source
3 ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	1 import webvtt
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	2 # for caption in webvtt.read('data/Albany City Council - June 17, 2024 [Ywf6cOduPNI].en.vtt'):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	3 # print(caption.start)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	4 # print(caption.end)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	5 # print(caption.text)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	6
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	7 vtt=webvtt.read('data/Albany City Council - June 17, 2024 [Ywf6cOduPNI].en.vtt')
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	8
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	9 # for line in vtt[0].lines:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	10 # print(line)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	11
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	12
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	13 # for caption in vtt.iter_slice(start='00:01:11.000', end='00:02:27.000'):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	14 # print(caption.start)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	15 # print(caption.end)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	16 # print(caption.text)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	17
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	18 transcript = ""
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	19
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	20 lines = []
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	21 for line in vtt:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	22 # Strip the newlines from the end of the text.
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	23 # Split the string if it has a newline in the middle
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	24 # Add the lines to an array
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	25 lines.extend(line.text.strip().splitlines())
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	26
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	27 # Remove repeated lines
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	28 previous = None
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	29 for line in lines:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	30 if line == previous:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	31 continue
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	32 transcript += " " + line
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	33 previous = line
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	34
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	35 print(transcript)
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	36
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	37 # text = lobj.get_text()
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	38 # for sentence in nltk.sent_tokenize(text):
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	39 # sentence = re.sub(r'\s+', ' ', sentence).strip()
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	40 # if len(sentence) < 5:
ba1ce5921a4b start drewp@bigasterisk.com parents: diff changeset	41 # continue

Mercurial > code > home > repos > sco-bot

annotate webvtt_1.py @ 3:ba1ce5921a4b