AXERA-TECH
/

Speech-Translation.axera

@@ -48,7 +48,7 @@ def intersperse(lst, item):
     result[1::2] = lst
     return result
 def get_text_for_tts_infer(text, language_str, symbol_to_id=None):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str, symbol_to_id)
@@ -64,6 +64,75 @@ def get_text_for_tts_infer(text, language_str, symbol_to_id=None):
     word2ph[0] += 1
     return phone, tone, language, norm_text, word2ph
 def audio_numpy_concat(segment_data_list, sr, speed=1.):

     result[1::2] = lst
     return result
+"""
 def get_text_for_tts_infer(text, language_str, symbol_to_id=None):
     norm_text, phone, tone, word2ph = clean_text(text, language_str)
     phone, tone, language = cleaned_text_to_sequence(phone, tone, language_str, symbol_to_id)
     word2ph[0] += 1
     return phone, tone, language, norm_text, word2ph
+"""
+# 处理字符无法不识别
+def get_text_for_tts_infer(text, language_str, symbol_to_id=None):
+    """修复版音素处理：确保所有数组长度一致"""
+    try:
+        norm_text, phone, tone, word2ph = clean_text(text, language_str)
+        # 特殊音素直接映射为空字符串
+        phone_mapping = {
+            'ɛ': '', 'æ': '', 'ʌ': '', 'ʊ': '', 'ɔ': '', 'ɪ': '', 'ɝ': '', 'ɚ': '', 'ɑ': '',
+            'ʒ': '', 'θ': '', 'ð': '', 'ŋ': '', 'ʃ': '', 'ʧ': '', 'ʤ': '', 'ː': '', 'ˈ': '',
+            'ˌ': '', 'ʰ': '', 'ʲ': '', 'ʷ': '', 'ʔ': '', 'ɾ': '', 'ɹ': '', 'ɫ': '', 'ɡ': '',
+        }
+        # 同步处理 phone 和 tone，确保它们长度一致
+        processed_phone = []
+        processed_tone = []
+        removed_symbols = set()
+        for p, t in zip(phone, tone):
+            if p in phone_mapping:
+                # 特殊音素直接删除，同时删除对应的 tone
+                removed_symbols.add(p)
+            elif p in symbol_to_id:
+                # 正常音素保留，同时保留对应的 tone
+                processed_phone.append(p)
+                processed_tone.append(t)
+            else:
+                # 其他未知音素也删除
+                removed_symbols.add(p)
+        # 记录被删除的音素
+        if removed_symbols:
+            print(f"[音素过滤] 删除了 {len(removed_symbols)} 个特殊音素: {sorted(removed_symbols)}")
+            print(f"[音素过滤] 处理后音素序列长度: {len(processed_phone)}")
+            print(f"[音素过滤] 处理后音调序列长度: {len(processed_tone)}")
+        # 如果没有有效音素，使用默认音素，
+        if not processed_phone:
+            print("[警告] 没有有效音素，使用默认中文音素")
+            processed_phone = ['ni', 'hao']
+            processed_tone = ['1', '3']
+            word2ph = [1, 1]
+        # 确保 word2ph 的长度与处理后的音素序列匹配
+        if len(processed_phone) != len(phone):
+            print(f"[警告] 音素序列长度变化: {len(phone)} -> {len(processed_phone)}")
+            # 简单处理：重新计算 word2ph
+            word2ph = [1] * len(processed_phone)
+        phone, tone, language = cleaned_text_to_sequence(processed_phone, processed_tone, language_str, symbol_to_id)
+        phone = intersperse(phone, 0)
+        tone = intersperse(tone, 0)
+        language = intersperse(language, 0)
+        phone = np.array(phone, dtype=np.int32)
+        tone = np.array(tone, dtype=np.int32)
+        language = np.array(language, dtype=np.int32)
+        word2ph = np.array(word2ph, dtype=np.int32) * 2
+        word2ph[0] += 1
+        return phone, tone, language, norm_text, word2ph
+    except Exception as e:
+        print(f"[错误] 文本处理失败: {e}")
+        import traceback
+        traceback.print_exc()
+        raise e
 def audio_numpy_concat(segment_data_list, sr, speed=1.):