HsiangNianian · HsiangNianian · commit 3822ad7d3ab5 · 2022-11-11T14:33:37.000+08:00
diff --git a/demo_audio.wav b/demo_audio.wav
diff --git a/src/demo.txt b/src/demo.txt
@@ -0,0 +1 @@
+PocketSphinx 是一个用于语音转换文本的开源 API。它是一个轻量级的语音识别引擎， 尽管在桌面端也能很好地工作，它还专门为手机和移动设备做过调优。
diff --git a/src/demo_audio.wav b/src/demo_audio.wav
diff --git a/src/sapi.py b/src/sapi.py
@@ -0,0 +1,8 @@
+from win32com.client import Dispatch
+# 获取讲话对象
+speaker = Dispatch('SAPI.SpVoice')
+# 讲话内容
+speaker.Speak('你好！')
+speaker.Speak('睡得还好吗？')
+# 释放对象
+del speaker
diff --git a/src/speechlib.py b/src/speechlib.py
@@ -0,0 +1,22 @@
+from comtypes.client import CreateObject
+from comtypes.gen import SpeechLib
+# 获取语音对象,源头
+engine = CreateObject('SAPI.SpVoice')
+# 输出到目标对象的流
+stream = CreateObject('SAPI.SpFileStream')
+infile = 'src/demo.txt'
+outfile = 'src/demo_audio.wav'
+# 获取流写入通道
+stream.open(outfile, SpeechLib.SSFMCreateForWrite)
+# 给语音源头添加输出流
+engine.AudioOutputStream = stream
+# 读取文本内容
+# 打开文件
+f = open(infile, 'r', encoding='utf-8')
+# 读取文本内容
+theText = f.read()
+# 关闭流对象
+f.close()
+# 语音对象，读取文本内容
+engine.speak(theText)
+stream.close()
diff --git a/src/tts.py b/src/tts.py
@@ -0,0 +1,5 @@
+import pyttsx3 as pyttsx
+# 调用初始化方法，获取讲话对象
+engine = pyttsx.init()
+engine.say('2022年11月11日')
+engine.runAndWait()
diff --git a/src/可视化音频信号.py b/src/可视化音频信号.py
@@ -0,0 +1,20 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from scipy.io import wavfile
+
+frequency_sampling, audio_signal = wavfile.read("src/demo_audio.wav")
+
+print('\nSignal shape:', audio_signal.shape)
+print('Signal Datatype:', audio_signal.dtype)
+print('Signal duration:', round(audio_signal.shape[0] /
+float(frequency_sampling), 2), 'seconds')
+
+audio_signal = audio_signal / np.power(2, 15)
+audio_signal = audio_signal [:100]
+time_axis = 1000 * np.arange(0, len(audio_signal), 1) / float(frequency_sampling)
+
+plt.plot(time_axis, audio_signal, color='blue')
+plt.xlabel('Time (milliseconds)')
+plt.ylabel('Amplitude')
+plt.title('Input audio signal')
+plt.show()
diff --git a/src/特征提取.py b/src/特征提取.py
@@ -0,0 +1,13 @@
+import speech_recognition as sr
+
+recording = sr.Recognizer()
+
+with sr.Microphone() as source:
+    recording.adjust_for_ambient_noise(source)
+    print("Please Say something:")
+    audio = recording.listen(source)
+
+    try:
+        print("You said: \n" + recording.recognize_google(audio))
+    except Exception as e:
+        print(e)
diff --git a/src/生成单调音频信号.py b/src/生成单调音频信号.py
@@ -0,0 +1,23 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from scipy.io.wavfile import write
+
+output_file = 'audio_signal_generated.wav'
+duration = 4 # in seconds
+frequency_sampling = 44100 # in Hz
+frequency_tone = 784
+min_val = -4 * np.pi
+max_val = 4 * np.pi
+
+t = np.linspace(min_val, max_val, duration * frequency_sampling)
+audio_signal = np.sin(2 * np.pi * tone_freq * t)
+write(output_file, frequency_sampling, signal_scaled)
+
+audio_signal = audio_signal[:100]
+time_axis = 1000 * np.arange(0, len(signal), 1) / float(sampling_freq)
+
+plt.plot(time_axis, audio_signal, color='blue')
+plt.xlabel('Time in milliseconds')
+plt.ylabel('Amplitude')
+plt.title('Generated audio signal')
+plt.show()
diff --git a/src/表征音频信号.py b/src/表征音频信号.py
@@ -0,0 +1,32 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from scipy.io import wavfile
+
+frequency_sampling, audio_signal = wavfile.read("src/demo_audio.wav")
+
+print('\nSignal shape:', audio_signal.shape)
+print('Signal Datatype:', audio_signal.dtype)
+print('Signal duration:', round(audio_signal.shape[0] /
+float(frequency_sampling), 2), 'seconds')
+
+audio_signal = audio_signal / np.power(2, 15)
+length_signal = len(audio_signal)
+half_length = np.ceil((length_signal + 1) / 2.0).astype(np.int)
+signal_frequency = np.fft.fft(audio_signal)
+signal_frequency = abs(signal_frequency[0:half_length]) / length_signal
+signal_frequency **= 2
+len_fts = len(signal_frequency)
+
+if length_signal % 2:
+   signal_frequency[1:len_fts] *= 2
+else:
+   signal_frequency[1:len_fts-1] *= 2
+
+signal_power = 10 * np.log10(signal_frequency)
+x_axis = np.arange(0, half_length, 1) * (frequency_sampling / length_signal) / 1000.0
+
+plt.figure()
+plt.plot(x_axis, signal_power, color='black')
+plt.xlabel('Frequency (kHz)')
+plt.ylabel('Signal power (dB)')
+plt.show()

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+PocketSphinx 是一个用于语音转换文本的开源 API。它是一个轻量级的语音识别引擎，尽管在桌面端也能很好地工作，它还专门为手机和移动设备做过调优。`