登录
注册
用户名
Email
自动登录
找回密码
密码
登录
立即注册
搜索
本版
文章
帖子
用户
论坛
主站
论坛镜像,仅供备用
动态
Space
字体下载
超级字体包XZ下载
Room
一间黑暗的小屋~(不支持IE)
本镜像站说明
排行榜
魔方
好友
帖子
收藏
道具
勋章
任务
动态
分享
设置
退出
苏伯泰特论坛(2026.04.01)
»
论坛
›
论坛版块
›
灌水聊天
›
ParaAlign:中日双语合并工具
返回列表
查看:
311
|
回复:
0
ParaAlign:中日双语合并工具
三角高台
当前离线
积分
34586
2
主题
3
回帖
212
VC币
高级会员
高级会员, 积分 34586, 距离下一级还需 414 积分
高级会员, 积分 34586, 距离下一级还需 414 积分
积分
34586
发消息
三角高台
发表于 2026-2-17 20:07:17
|
显示全部楼层
|
阅读模式
本帖最后由 三角高台 于 2026-2-18 09:51 编辑
前言
由于本人实力不佳,该工具可能还存在许多不善之处,或使用条件苛刻,发布出来主要是为了集思广益、交流学习
此工具为AI辅助制作
简单介绍
用于将日文原版和中文译版,合并为双语对照的文本
适用场景
你拥有分别为日文原版和其对应中文译版的
超大量
文本
希望将它们合并,以便在阅读时逐段对照学习语言
两个版本的段落划分可能不完全一致,需要
智能对齐
基本逻辑
以段落的形式划分文本
对提取出的中文段落列表和日文段落列表,计算两两之间的文本
相似度
。
相似度计算使用Python标准库 difflib.SequenceMatcher,通过比较字符序列的匹配程度,返回一个0~1之间的浮点数。
设定一个相似度阈值(默认0.03),只有相似度高于该值的段落对才被视为潜在的正确匹配;低于阈值的配对在动态规划中会被给予负分,从而鼓励算法寻找更合理的对齐方式。
之后就基于顺序进行相似度匹配,但允许跳过多余的日文段落。也就是对于每个中文段落,在剩余的日文段落中寻找最佳匹配,但要求该日文段落的索引必须大于上一次匹配的索引。如果最佳匹配的相似度低于阈值,则认为该中文无对应日文(插入中文),并继续处理下一个中文,日文指针不变。
效果展示
日文原版和中文译版:
得到结果:
使用方法
每个环节都有提示,很简单且简短
弹出的第一个对话框选择中文译版,第二个对话框选择日文原版
效果说明
使用时可能会有以下情况
1.段落不匹配,出现在日文/中文匹配不到对应段落时;大多数情况下只是程序认为匹配度不高,
此时文字会标红,但可以看到日文和中文只是顺序颠倒,实际对应关系正常
2.中文文本段落分隔过多时,会出现两段中文对应一段日文,不影响后续段落对应及实际效果,蓝框为后期标注
3.含有中文注释时,注释会标红,不影响后续段落对应及实际效果
4.中文文本出现漏译时,日文因为找不到对应段落而标红,不影响后续段落对应
注意事项
脚本中有一个 SIMILARITY_THRESHOLD = 0.03 参数,用于控制多少相似度以上的段落才被视为有效匹配;如果发现错误匹配太多,可以提高数字;红字太多则减少数字
依赖说明
Python 3.6+
需安装:pip install ebooklib beautifulsoup4
其他
目前只支持EPUB电子书格式,但要改其他格式也很简单(可直接丢给AI),毕竟核心是文本比较
轻小说之外,之后如字幕文件也可研究一下
后续还可引入外部词典,进一步提升匹配准确度
工具下载
ParaAlign.7z
(5.24 KB, 下载次数: 14)
2026-2-17 20:05 上传
点击文件名下载附件
演示及结果文件
狼与辛香料19卷.7z
(4.66 MB, 下载次数: 14)
2026-2-17 20:06 上传
点击文件名下载附件
回复
使用道具
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速回复
返回顶部
返回列表