请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
查看: 21993|回复: 255

硬字幕提取工具7.0 - 超好用(”语音提词1.3”发布了!欢迎试用)

1

主题

141

帖子

0

VC币

中级会员

Rank: 3Rank: 3

积分
13825
hx168 发表于 2021-3-3 21:34:09 | 显示全部楼层 |阅读模式
本帖最后由 hx168 于 2021-10-6 09:41 编辑

一、 目前为止可行的硬字幕(hardsub)提取方案
这里只说“可行”的方案,那些不成熟的、按时收费的,用过就删的,不在此列。

1. 人工手提,用手来提取时间轴和文字。
优点:
准确率高(废话)。
缺点:
费时费力,不能常做。

2. esrXP + IdxSubOcr(MODI OCR)
esrXP提取带时间轴信息的字幕图片,打包成一个idx文件,然后导入IdxSubOcr用MODI ocr识别文字。
优点:
用了计算机图像技术判断字幕出现和消失的时间点,从而提取时间轴信息,准确率较高。
缺点:
老掉牙的微软MODI ocr识别引擎准确率较低,为了照顾MODI ocr,esrXP需要做较多设置、试验、调整参数的工作,以便提供漂亮的黑底白字clearTxT给MODI ocr,这就很考验用户的经验了。总体来说识别率不高、工作量较大。虽然esrXP已经停更多时,但是苦于没有更好的选择,长期以来字幕爱好者只能将就着用。

3. VideoSubFinder_5.50_x64 + ABBYY FineReader 15
VideoSubFinder_5.50_x64做类似esrXP的工作(区别是保存每个字幕图片,不打包成一个idx文件),ABBYY FineReader 15做类似IdxSubOcr的工作,将每个jpg字幕图片ocr识别为一个txt文件,然后回到VideoSubFinder_5.50_x64将所有txt文件合成一个srt文件。
优点:
跟esrXP类似,采用了更先进复杂的计算机图像技术判断字幕出现和消失的时间点,从而提取时间轴信息,更好的去重算法,更好的分辨率适应,可用性更高(人家叫Finder嘛,从2011年做到现在)。ABBYY FineReader 15除了能ocr中英文,还支持其他语种。
缺点:
ABBYY FineReader 15号称地表最强离线文字ocr引擎,虽然比MODI ocr好得多,但在实际使用效果上,对比经过数年AI人工智能训练的云识别引擎(例如百度OCR通用文字识别引擎),识别准确率还是差了一大截。

4. 硬字幕提取工具
采用VideoSubFinder_5.50_x64 + 百度搜狗有道讯飞OCR通用文字识别引擎,整合多个工具APP(为什么不好好利用别人的成果呢?),从开始到结束,整个字幕提取流程一气呵成,识别率高、省时省力。

拙作 “语音提词1.3”发布了!专注于语音识别字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。

7.0 最新版(64bit)下载地址:
不支持离线OCR版本:
提取码:2021
支持离线OCR版本(体积较大):
2021.10.05更新:
1、新增3个离线OCR引擎,需要离线支持请下载离线版本(体积较大)。
2、新增OCR识别过程自动标注空字幕图片功能,快来体验吧。
3、新增ctrl+鼠标左键,标注图片,支持所有窗口标注操作。
4、校对窗鼠标一键插入空格,统一为一键插入,不需两次按键。
5、校对窗新增1~3组图文设置,满足对超大字号的需求。校对窗支持1~7组图文,8~10组太多眼花取消支持。
6、界面适配了各种屏幕分辨率,老土的tkinter终于像个样了。。。
7、版本更新到7.0,更新了用户使用手册。

6.7 最新版(64bit)下载地址:
1、优化了界面、增加了翻页按键、更好地支持全屏,快来体验吧。
2、主界面、截图窗、校对窗 都有提供三大魔棒:‘增强魔棒’、‘对齐魔棒’、‘字号魔棒’,快来体验吧。
3、删合窗图片组数设置,由原来的36、44、56 改为 50、75、100、125,由原来的4列改为5列。校对窗图文组数设置,由原来的4、5、6、7、8 改为 4、5、6、7、8、9、10。以便支持2K显示器用户能看得更多,快来体验吧。
4、版本号更新至6.7,更新了用户使用手册。

2021.09.16更新:
1、因程序采用的图形库有局限性,导致同一个程序在不同PC上界面显示不同,因此以前做了好几个界面适配。经过努力克服图形库的局限性,现基本能做到同一个程序在不同PC上都有正常的显示。目前提供的“硬字幕提取工具6.6”支持1080p及以上(2k)分辨率的桌面,运行工具如果界面超出屏幕外,可在桌面空白处--鼠标右键--显示设置--更改文本、应用等项目的大小--改设置为100%,请大家试用反馈
2、删合窗图片组数设置,由原来的28、36、44改为36、44、56。校对窗图文组数设置,由原来的4、5、6改为4、5、6、7、8。以便支持2K显示器用户能看得更多。
3、增加了翻页和删除合并音效
4、版本更新至6.6,更新了用户使用手册

2021.09.13更新:
1、修复了进度条长度异常问题

2021-09-02更新:
1、允许秘钥拷贝填写误多输入空格
另:拙作 “语音提词1.1”发布了!专注于语音识别和字幕翻译,是听不懂外语啃生肉的利器!黃藥師:语音提词1.0(原创) 采用Spleeter(分离人声)+ 断句分割算法,将视频、音频文件中的语音片段单独提取出来,通过讯飞百度ASR语音识别引擎将语音识别为文字,一键生成字幕,同时还集成了单独的字幕翻译工具。

2021-04-29以来积累更新:
6.3开放了5个OCR,对比6.2只开放了1个OCR
因近期百度免费额度政策调整,导致很多新用户额度不够用,故开放5个OCR,不够用的朋友可以实名申请最多5个OCR秘钥填入,从而提供5倍于单个账号的免费额度。如果还不够用,请购买OCR服务商的额度。
6.5版新增“鼠标左键一键定位+同时插入空格”功能,校对窗中文本框只须按一下鼠标左键就能插入一个空格,对于百度高精度这种文字识别率很高,但是空格不能识别,需要补漏空格的校对工作,变得更轻松了。对比6.3及以前版本支持“鼠标左键定位+鼠标右键插入空格”,须按两下鼠标才能插入一个空格(继续支持)。具体请看6.5版用户使用手册 - 校对窗章节。

2021-04-29更新:
1、去掉字幕字体像素大小的限制,以适应大字体或4K视频

2021-04-29更新:
1、删合窗增加“合并提示”功能,可根据图片间隔ms数标记哪些图片可能可以合并(VSF出来的轴有些挨得很近,设置成1ms就可以发现一些可能须要合并的图片(谢谢@Chris Chris 建议
2、更新了使用手册
3、清除一些新引入的bug(谢谢@Chris Chris 提醒


2021-04-25更新:
https://ai.baidu.com/support/news?action=detail&id=2390
百度公司免费额度政策将调整(500每日->1000每月,市场推广期结束了撒),如果没有实名认证的账号,快去做:实名认证并识别一下(调用一次即可),做过的账号将维持原免费额度不变。
1、更新了设置界面
2、清除一个浏览空目录会出错的bug(谢谢@CHAO1356提醒
3、更新了用户使用手册

2021-04-24更新:
1、截图、大图识别窗,增加了缩进、行距设置slider,可以由用户自己设置输出的排版
2、新增支持32bit系统
3、新增支持OCR识别后返回删合窗,做删合操作(谢谢@xqyd 提醒

2021-04-21更新:
1、清除讯飞OCR一个bug

2021-04-19更新:
1、清除一个校对窗删除图片时,如光标在其他文本框中,会连带delete一个字符的bug(谢谢@xqyd 提醒
2、清除删合窗多选不正常的bug(谢谢@xqyd 提醒
3、优化了删合窗翻页响应,更迅速
4、清除删合窗一个翻页bug

6.2版本对比6.1版本的提升,包括:
1、重写了删合窗,增加了动画滚动体验(python用tkinter能做到的极限了),去掉了翻列设置,现在滚动一下步进3列(滚多少列都可能觉得眼花,密集阵无法避免,不喜欢动画可以关闭动画,界面上有开关)。
2、删合窗,合并操作增加了组间分隔标记(Ctrl+鼠标右键),爱心保留标记改为鼠标右键双击,更加方便(谢谢@xqyd  提醒
3、删合动作,程序改为先合,再删,不会因为先删导致本来隔着删的两组合,因为删而可能变成挨在一起,变成一组合(除bug)。
4、文本输入支持undo(ctrl+z)、redo(ctrl+y)
5、更新了6.2使用手册


2021-04-13更新:
1、在@shadowxiao 小姐姐的帮助下,调了界面参数,于是这个工具软件终于有了正常的界面了!它再也不是一个徒有内涵、没有外表的使唤了!再次感谢!以后更新版本都会有两个进度条长度版本exe,功能完全一样。如果其中一个界面显示长度不对,就用另外一个
2、删合窗组数调整为 28、36、44,原来的56界面太高,完全超出了屏幕。
3、删合窗,用户可以选择合并时保留哪张图片。
4、调教截图窗缩进、行距等参数,识别结果更接近大图真实排版。


2021-04-12更新:
主要是增加了讯飞OCR,记住要选‘文字识别-- 印刷文字识别(多语种)’,服务接口认证信息为三项:APPID、APISecret、APIKey,其他三种包括手写识别,对空格识别率都不高,只有这种高。虽然讯飞文字识别率没有百度高(毕竟讯飞语音识别才是强项),但是胜在空格识别率高很多,同时0元购送10W次(没错是100000),不用叠图都用不完(建议不要叠了,讯飞的文字识别率不太高。。。)。如果发现讯飞对文字识别率不高,可以开启增强魔棒,并将对比度设为99,算是一种弥补吧,后期再用SubtitleEdit、Aegisub做错字替换。
同时改进了删合窗,使用更方便了。。。

6.1版本对比6.0版本的提升,包括:
1、增加讯飞OCR,目前空格识别率最高(实测讯飞93%,有道80%,百度G 65%,百度A 0%)
2、删空窗改为删合窗,增加了合并功能,
布局由3列改为4列,增加左右键浏览翻页,增加了翻列(滚动一下步进一列)
原页内删除合并操作继续支持,同时删除合并选择标记翻页不会丢失,所有页标记完最后可做一次总体删除合并,不用每页单独操作(感谢@xqyd 的建议
3、重新布局截图窗,改进使用体验,大图识别、截图识别,以后都到这里来做。
4、增加更多告警错误信息打印,出问题时用户不再‘一头雾水’
5、更新了6.1使用手册


2021-04-04更新:
1、增加‘删空窗’,用于清理空字幕图片。(合并功能?技术上可实现,但是怎么知道两个同样的字幕一定就是没有去重的呢?例如‘啊’‘啊’‘啊’(嗯!有开车嫌疑)可能是重复的,也可能是正常的,扔到SubtileEdit或Aegisub中借助时间轴和波形来判断不更好吗?好吧,加上了。。。)
2、将‘删空窗’、‘校对窗’移到主界面上,不需要来回切换。
3、更新了6.0使用手册

2021-04-02更新:
1、优化了校对窗的使用体验,输入法输入时不用担心鼠标指针不在文本框中了(谢谢@xqyd  @394730122 提醒
2、增加了校对窗组数设置,以适应不同分辨率的屏幕。
3、更新了使用手册

2021-03-29更新:
修复了操蛋的百度OCR在纯英文字幕且较模糊选中英混合语言模式容易叠图错位-间隔标记丢失的问题,导致小概率叠图识别失败,过后程序会自动采用单图识别做补识别!而搜狗有道OCR则完全没有这种问题。。。这种情况下百度如改用半叠则很难出现问题。。。这种极限情况下的改进,让程序更加Robust了。。。
结论:
虽然能补识别,还是建议纯英文字幕采用半叠或不叠,仍旧选中英混合语言模式百度语言英语识别纯英文字幕会在标点前添加空格,紧接下来的断句空格会丢失,这是个烦人的bug!中英混合语言模式却没有这个bug!晕。。。看来百度把主要精力放在中英混合这个模型上了,总之大家批量识别前多做试验,选自己满意的设置吧,国产OCR对英语和拉丁语系的支持肯定没有中文强,这是必然的。实际测试纯英文字幕识别率:搜狗>有道>百度
感慨:
同样是检测和识别,不同厂家的机器学习模型在某些方面表现差别挺大的,就好像小孩学习,给他灌输的知识不同,灌输的方式不同,开悟得就不同,不仅要喂巨量数据以便找到规律,还要防止过拟合训练出怪癖,深度学习虽然模式简单,却不是单单有深度就可以的,挺考验科研人员的。。。


使用过程中有任何问题,请先阅读用户使用手册,如果觉得可能是bug,请在这里留言,作者会一一答复,
如果您有好的建议,非常恳请您不吝提出来,一起探讨,可行的话会做进去,感谢您的支持!


另:工具目前支持百度搜狗有道讯飞OCR,一直想集成更多可用的OCR,
第一梯队:
百度搜狗有道讯飞,已集成。
google云双币信用卡注册都过不了,没法试呢。
腾讯云、腾讯优图(将并入腾讯云),高精度版识别率还行,但是有两大障碍导致不想集成:1、价格太高(280RMB/千次,是其他厂家的十倍)2、申请公有云账号审批等待长达三周以上(我4月1号申请,25号通过)。跟百度没法比,百度的OCR服务器据说已经空闲得用来识别每一张贴吧图片。
第二梯队:
包括商用的德国OCR.Space、京东云、华为云、阿里云、好未来、薪火,实际测试过效果(主要是识别率,特别是繁体)都不太行。
第三梯队:
几种开源OCR例如:Tesseract OCR、EasyOCR、PaddleOCR、PaddleHub、chineseocr_lite, 离能用(主要是识别率和速度)还有较大距离。

如果大家有听说过能用的OCR,请告知,能用的都会集成进来。
看来AI还是中美引领全球的,生在中华家也挺不错呢。。。

免责声明:
本工具仅供个人使用,为业余提取字幕的朋友提供方便,不可用于商业目的,不可侵犯他人知识产权。
同时,作者建议有长期大量需求的用户,请购买OCR服务商的额度,支持国家高科技发展。

作者并非百度广告代言人,不过目前百度有1元购1W次通用文字识别(高精度版)优惠活动,忍不住要推荐给大家:
https://cloud.baidu.com/campaign/annual_sale_2021/index.html?showView=welfare&track=cp:otheronline-media|pf:pc|pp:qitaxianshangmeiti-huodong-21kainiansh

防走失链接:https://zhuanlan.zhihu.com/p/410868599


评分

参与人数 14活跃度 +12216 收起 理由
Legebriand + 400 很给力!
Visionary + 800 很给力!
_JiuGuang_ + 200 赞一个!
Takasuzu + 800 很给力!
某某人 + 80 很给力!
xqyd + 400 很给力! 堪称完美了,是我见过最好的字幕提.
paul + 1600 很给力!
jiheidemifan + 666 很给力!
CHAO1356 + 70 很给力!
pasanonic + 600 很给力!
shadowxiao + 200 很给力!好用,还持续改进细节,赞!.
luo + 640 很给力!
LIONBING + 5120 超级好用!!!
outman654 + 640 很给力!

查看全部评分

回复

使用道具 举报

0

主题

7

帖子

0

VC币

注册会员

Rank: 2

积分
1095
fuyouquan 发表于 2021-3-3 22:19:58 | 显示全部楼层
还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.acgrip.com/forum.php ... ight=videosubfinder,思路和工具都跟这个差不多,但前些日子抄的几集动画的字幕,本身空格很多,只能后期一个个补;然后有一些又是句子其实是前后间隔很长的,但为了句子的流畅合在一句里。
回复 支持 反对

使用道具 举报

1

主题

141

帖子

0

VC币

中级会员

Rank: 3Rank: 3

积分
13825
hx168  楼主| 发表于 2021-3-3 22:33:39 | 显示全部楼层
fuyouquan 发表于 2021-3-3 22:19
还能断句加空格,是根据videosubfinder截图断的还是根据语音断的?我之前用https://bbs.acgrip.com/forum.ph ...

是利用百度实现的,支持空格重现,特别是字幕清晰工整的情况下,重现效果较好
回复 支持 反对

使用道具 举报

0

主题

7

帖子

0

VC币

注册会员

Rank: 2

积分
1095
fuyouquan 发表于 2021-3-3 22:44:27 | 显示全部楼层
本帖最后由 fuyouquan 于 2021-3-4 11:45 编辑

那还有,像TVB的字幕,如图
我记得百度识图对问号啊、逗号啊都是识别成英文的,
那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
但这个问题绝对不大,有标点的话再在Subtitle edit或aegisub里批量替换还不简单
回复 支持 反对

使用道具 举报

0

主题

7

帖子

0

VC币

注册会员

Rank: 2

积分
1095
fuyouquan 发表于 2021-3-3 22:44:48 | 显示全部楼层
那还有,像TVB的字幕,如图
我记得百度识图对问号啊、逗号啊都是识别成英文的,
那TVB这种,它也是用英文标点,然后后面我不确定是不是补了一个半角空格,但要是没有这个空格的间距就会不明显,像这种空格能补上吗?
但这个问题绝对不大,有标点的话再在Subtitle editr或aegisub里批量替换还不简单
回复 支持 反对

使用道具 举报

1

主题

25

帖子

0

VC币

至尊会员

Rank: 16Rank: 16Rank: 16Rank: 16

积分
241959
yjyz1011 发表于 2021-3-3 23:07:48 | 显示全部楼层
好用,感觉文字逐行校准功能在这个软件这里做更好。
回复 支持 反对

使用道具 举报

1

主题

141

帖子

0

VC币

中级会员

Rank: 3Rank: 3

积分
13825
hx168  楼主| 发表于 2021-3-3 23:09:11 | 显示全部楼层
fuyouquan 发表于 2021-3-3 22:44
那还有,像TVB的字幕,如图
我记得百度识图对问号啊、逗号啊都是识别成英文的,
那TVB这种,它也是用英文标 ...

发的图片看不到你可以下载运行试试看有没你说的这种问题
回复 支持 反对

使用道具 举报

1

主题

141

帖子

0

VC币

中级会员

Rank: 3Rank: 3

积分
13825
hx168  楼主| 发表于 2021-3-3 23:10:39 | 显示全部楼层
yjyz1011 发表于 2021-3-3 23:07
好用,感觉文字逐行校准功能在这个软件这里做更好。

有人喜欢就好。
请多反馈意见,谢谢
回复 支持 反对

使用道具 举报

1

主题

141

帖子

0

VC币

中级会员

Rank: 3Rank: 3

积分
13825
hx168  楼主| 发表于 2021-3-3 23:17:56 | 显示全部楼层
yjyz1011 发表于 2021-3-3 23:07
好用,感觉文字逐行校准功能在这个软件这里做更好。

如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏
回复 支持 反对

使用道具 举报

1

主题

25

帖子

0

VC币

至尊会员

Rank: 16Rank: 16Rank: 16Rank: 16

积分
241959
yjyz1011 发表于 2021-3-3 23:33:48 | 显示全部楼层
hx168 发表于 2021-3-3 23:17
如果VSF不漏轴,的确不需要subtitleEdit做校对,就怕有漏

不是漏轴的问题,主要问题是百度OCR不是100准确的,每行文字其实都需要人工核对,这个软件没有人工核对修改,保存的功能,不太方便。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表