tmdtmdtmdqq 发表于 2025-10-27 22:06:27

【教程】用GPT检查字幕中的错字病句

本帖最后由 tmdtmdtmdqq 于 2025-10-29 22:18 编辑

我们可以用GPT去进行错字病句的检查,一般可以抓出大部分明显的错字。
此方法适合于OCR后的字幕、官译字幕和字幕组出片前的错字检查。

由于我图方便,文中使用豆包来检查。
(豆包的水平虽然不是很顶尖,但可以传文档。主要是不用梯子且在不登陆的情况下,可以新建5个对话session,每个session可以提问10次。用完可以清空该域名的cookie,继续提问5x10次,无限重复)

把字幕文件后缀改为.txt就能作为附件扔进豆包。
一种调教用语是:
检查这个字幕(ass或srt)里的中文内容(日语不检查)有没有错字病句。结果输出为一个表格,包含:出错的行号、时间、出错的源字幕行、修改后的字幕、修改原因。表格中只能出现含有错误的字幕行。无需修改的字幕行是不能出现在表格中的。
必须做到以下几点:
1. 任何句子都不应存在逗号和句号,分句间使用空格代替逗号,省略号统一使用半个省略号“…”。除此之外,不要管标点符号的任何问题
2. 不要胡编乱造去指出无谓的错误,主要进行的是错字检查
3. 简体中文的内容应符合大陆的用语习惯
2025/10/29 更新:对字幕操作有以下必须执行的规则:
1. 字幕不是一般的文章,省略句统一使用半个省略号“…”,任何句子都不应存在逗号和句号,分句间使用空格代替逗号。
2. 感叹号、问号用半角和全角来书写都是中文标点使用标准的,不能进行全角变换。标点符号只管是否这些符号,不用管语气、中文标准和习惯用法等
3. 某些字幕末尾会加半个省略号是正确的。叠词重复说一般也是正确的。不能添加额外的省略号、感叹号
4. 有语气词结尾能确定句子是疑问句不歧义的话,末尾的问号缺失是正确情况,不算问题
5. 简体中文的内容应符合大陆的用语习惯
按照上面各点检查这个字幕(ass或srt)里的每行中文内容(日语不检查)有没有错字病句,仅仅将有错误的行输出为一个表格。表格包含:行号、时间、源错误的字幕行、修改后的字幕、修改原因。表格中只列出有错误的字幕,没错误的行会跳过,不能列入表格,不能在表格中展示。
再次强调,必须按上述说的各点要求严格执行,不要胡编乱造去指出无谓的错误。
输出的表格只能作为出错提示,不能尽信去跟着全部修改。
要结合对应画面、语音的真实情况才能去改。例如,某些人的话本来就说错音,对应的字幕就应错写,这种就不能改成正确的。



PS:上述调教用语能用,但不是十分稳定。豆包偶尔会抽筋,把不用改的行、标点符号的修改之类的也输出了,导致输出表格一大片内容。
本文作为抛砖引玉,欢迎大家贴出更优的调教用语。


页: [1]
查看完整版本: 【教程】用GPT检查字幕中的错字病句