安生不在家
帖子: 20
注册时间: 2013-05-18 16:50

求字幕断句合并脚本 (? Script to merge segm'ts as complete sentence)

Hello People,

我有多个英文字幕文件SRT,带时间轴,现在需要借助CAT工具Trados来翻译成多国语言。遇到的问题是,英文字幕中,一句完整的句子被分成了数个小段显示,比如:

1
00:00:52,803 --> 00:00:55,522
<i>The authorities in Russia
are bracing themselves today</i>

2
00:00:55,681 --> 00:00:57,854
<i>for mass protests
against the trial</i>

3
00:00:57,975 --> 00:01:00,148
<i>of former billionaire
Yuri Komarov.</i>


## 分两步:

1) 文件送翻译之前的处理:
上面1-3单元其实是一个句子,为了翻译方便,我需要先把诸如这三单元以句号 “.”, "?", "!" ,"..." 等表示完整句结束的标点为准合并成一句,同时需要删除每个单元下两句话之间的硬回车并保留空格。每个单元添加<br>或是<segment>来断句,另外,还需要把时间码抽出来统一按一定顺序放在全部字幕文字首或尾。

处理后的比如成这个样子:
1
00:00:52,803 --> 00:00:55,522
2
00:00:55,681 --> 00:00:57,854
3
00:00:57,975 --> 00:01:00,148
<i>The authorities in Russia are bracing themselves today</i><segment><i>for mass protests against the trial</i><segment><i>of former billionaire Yuri Komarov.</i><segment>

//
翻译的文字大体会是这样:
1
00:00:52,803 --> 00:00:55,522
2
00:00:55,681 --> 00:00:57,854
3
00:00:57,975 --> 00:01:00,148
<i>(莫斯科爆发大规模抗议 尤里·科马洛夫候审)<i><segment><i>俄罗斯当局今天准备应对民众</i><i>针对前亿万富翁<segment>尤里·科马洛夫</i><i>开庭一事的大规模抗议</i><segment>

2) 文件翻译回来后需要再处理成这样(恢复时间轴,并删除添加的<segement>):
1
00:00:52,803 --> 00:00:55,522
<i>(莫斯科爆发大规模抗议 尤里·科马洛夫候审)</i>

2
00:00:55,681 --> 00:00:57,854
<i>俄罗斯当局今天准备应对民众针对前亿万富翁</i>

3
00:00:57,975 --> 00:01:00,148
<i>>尤里·科马洛夫开庭一事的大规模抗议</i>


####
以下的文字同理处理。

4
00:01:00,310 --> 00:01:01,653
<i>The case against Mr. Komarov</i>

5
00:01:01,812 --> 00:01:04,986
<i>has caused widespread division
amongst the Russian public,</i>

6
00:01:05,148 --> 00:01:08,493
<i>some of whom view his incarceration
as a political maneuver</i>

7
00:01:08,652 --> 00:01:11,030
<i>orchestrated by this man,</i>

8
00:01:11,154 --> 00:01:13,577
<i>defense minister
candidate Viktor Chagarin.</i>

9
00:01:20,122 --> 00:01:21,465
<i>What do you want Viktor?</i>

10
00:01:34,636 --> 00:01:36,354
<i>Why are you doing this?</i>

....


这样前后处理的目的是,一是为了翻译方便,二是为了保留时间轴,后期内嵌字幕时只需微调即可。大家有办法帮帮我写个脚本实现两步自动化吗?

万分感谢啊!!
安生
附件
SRT_sample.zip
SRT sample
(1.15 KiB) 下载 114 次
上次由 安生不在家 在 2013-05-29 8:06,总共编辑 2 次。
安生不在家
帖子: 20
注册时间: 2013-05-18 16:50

Re: 求字幕断句合并脚本 (? Script to merge segm'ts as complete sentenc

等待 ing .....

总体来讲 -- 前期合并分句并保留空格,按单元添加断句Tag,时间轴剥离合并的句子;后处理删除断句Tag,按单元恢复时间轴。
头像
msg7086
帖子: 600
注册时间: 2011-02-19 0:49

Re: 求字幕断句合并脚本 (? Script to merge segm'ts as complete sentenc

个人意见,保留原始时间轴不如直接按照断句按比例割开时间轴然后开aegisub重打。电视台的轴向来渣到不能直视。
Delogo LGD Collections 各种台标下载 | Home Of VapourSynth Evolution

<回答が無い理由>
1. 誰も知らない
2. 質問文が意味不明
3. 知ってるが、お前の態度が気に入らない
4. 良いボケが思いつかない

回到 “解码 播放 字幕 / Decoder playback and subtitles”