Speech-Translation.axera / utils /ax_vad_bin.py

qqc1989

Update utils/ax_vad_bin.py

6218889 verified about 2 months ago

6.44 kB

	# -- encoding: utf-8 --
	# Copyright FunASR (https://github.com/alibaba-damo-academy/FunASR). All Rights Reserved.
	# MIT License (https://opensource.org/licenses/MIT)

	import os.path
	from typing import List, Tuple

	import numpy as np

	from utils.utils.utils import read_yaml
	from utils.utils.frontend import WavFrontend
	from utils.utils.e2e_vad import E2EVadModel
	import axengine as axe

	class AX_Fsmn_vad:
	def __init__(self, model_dir, batch_size=1, max_end_sil=None):
	"""Initialize VAD model for inference"""

	# Export model if needed
	model_file = os.path.join(model_dir, "vad.axmodel")

	# Load config and frontend
	config_file = os.path.join(model_dir, "vad/config.yaml")
	cmvn_file = os.path.join(model_dir, "vad/am.mvn")
	self.config = read_yaml(config_file)
	self.frontend = WavFrontend(cmvn_file=cmvn_file, **self.config["frontend_conf"])
	#self.session = axe.InferenceSession(model_file, providers='AxEngineExecutionProvider')
	self.session = axe.InferenceSession(model_file)
	self.batch_size = batch_size
	self.vad_scorer = E2EVadModel(self.config["model_conf"])
	self.max_end_sil = max_end_sil if max_end_sil is not None else self.config["model_conf"]["max_end_silence_time"]

	def extract_feat(self, waveform_list):
	"""Extract features from waveform"""
	feats, feats_len = [], []
	for waveform in waveform_list:
	speech, _ = self.frontend.fbank(waveform)
	feat, feat_len = self.frontend.lfr_cmvn(speech)
	feats.append(feat)
	feats_len.append(feat_len)

	max_len = max(feats_len)
	padded_feats = [np.pad(f, ((0, max_len - f.shape[0]), (0, 0)), 'constant') for f in feats]
	feats = np.array(padded_feats).astype(np.float32)
	feats_len = np.array(feats_len).astype(np.int32)
	return feats, feats_len

	def infer(self, feats: List) -> Tuple[np.ndarray, np.ndarray]:
	"""Run inference with ONNX Runtime"""
	# Get all input names from the model
	input_names = [input.name for input in self.session.get_inputs()]
	output_names = [x.name for x in self.session.get_outputs()]

	# Create input dictionary for all inputs
	input_dict = {}
	for i, (name, tensor) in enumerate(zip(input_names, feats)):
	input_dict[name] = tensor

	# Run inference with all inputs
	outputs = self.session.run(output_names, input_dict)
	scores, out_caches = outputs[0], outputs[1:]
	return scores, out_caches

	def __call__(self, wav_file, **kwargs):
	"""Process audio file with sliding window approach"""
	# Load audio and prepare data
	# waveform = self.load_wav(wav_file)
	# waveform, _ = librosa.load(wav_file, sr=16000)
	waveform_list = [wav_file]
	waveform_nums = len(waveform_list)
	is_final = kwargs.get("kwargs", False)
	segments = [[]] * self.batch_size

	for beg_idx in range(0, waveform_nums, self.batch_size):
	vad_scorer = E2EVadModel(self.config["model_conf"])
	end_idx = min(waveform_nums, beg_idx + self.batch_size)
	waveform = waveform_list[beg_idx:end_idx]
	feats, feats_len = self.extract_feat(waveform)
	waveform = np.array(waveform)
	param_dict = kwargs.get("param_dict", dict())
	in_cache = param_dict.get("in_cache", list())
	in_cache = self.prepare_cache(in_cache)

	t_offset = 0
	step = int(min(feats_len.max(), 6000))
	for t_offset in range(0, int(feats_len), min(step, feats_len - t_offset)):
	if t_offset + step >= feats_len - 1:
	step = feats_len - t_offset
	is_final = True
	else:
	is_final = False

	# Extract feature segment
	feats_package = feats[:, t_offset:int(t_offset + step), :]

	# Pad if it's the final segment
	if is_final:
	pad_length = 6000 - int(step)
	feats_package = np.pad(
	feats_package,
	((0, 0), (0, pad_length), (0, 0)),
	mode='constant',
	constant_values=0
	)

	# Extract corresponding waveform segment
	waveform_package = waveform[
	:,
	t_offset * 160:min(waveform.shape[-1], (int(t_offset + step) - 1) * 160 + 400),
	]

	# Pad waveform if it's the final segment
	if is_final:
	expected_wave_length = 6000 * 160 + 240
	current_wave_length = waveform_package.shape[-1]
	pad_wave_length = expected_wave_length - current_wave_length
	if pad_wave_length > 0:
	waveform_package = np.pad(
	waveform_package,
	((0, 0), (0, pad_wave_length)),
	mode='constant',
	constant_values=0
	)

	# Run inference
	inputs = [feats_package]
	inputs.extend(in_cache)
	scores, out_caches = self.infer(inputs)
	in_cache = out_caches

	# Get VAD segments for this chunk
	segments_part = vad_scorer(
	scores,
	waveform_package,
	is_final=is_final,
	max_end_sil=self.max_end_sil,
	online=False,
	)

	# Accumulate segments
	if segments_part:
	for batch_num in range(0, self.batch_size):
	segments[batch_num] += segments_part[batch_num]

	return segments

	def prepare_cache(self, in_cache: list = []):
	if len(in_cache) > 0:
	return in_cache
	fsmn_layers = 4
	proj_dim = 128
	lorder = 20
	for i in range(fsmn_layers):
	cache = np.zeros((1, proj_dim, lorder - 1, 1)).astype(np.float32)
	in_cache.append(cache)
	return in_cache