type
status
date
slug
summary
tags
category
icon
password
Property
Mar 6, 2024 11:23 AM
Created time
Jan 31, 2024 05:37 PM
课题计划:

a) 福州话音频识别相关与语料库相关

  • 简单的目标是实现把用户发来的福州话单个词汇的录音识别成音标(或榕拼),然后把这个结果用来查询榕典,方便不熟悉音标的用户使用榕典;
  • 进阶一些,能够做到一整话或者一整段话转换成榕拼,这样的话可以有这样的应用场景:(长辈微信上发来语音,我现在在的场合不方便外放,可以先转成音标了解一下内容)
  • 最好的结果自然是在识别出音标的基础上转成直观的文字
下面是一个语音识别的实现项目介绍(应该不会是我们最后选择的方案,只是选了一个介绍):
https://www.jiqizhixin.com/articles/021102
1>本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,
2>使用大量中文语音数据集进行训练,将声音转录为中文拼音,
3>并通过语言模型,将拼音序列转换为中文文本。
1部分已经有前人的许多开源项目支持了,而且也能找到前辈协助,主要会由我负责处理这个开头
2部分我们要把很多的词汇音频靠我们自己人工去听,转写成音标(或汉字),这样就有了映射关系,把一大堆映射关系扔给电脑去学习就好。这个工作大部分人都可以参与。
3是比较高阶的任务,如何协调再议。
  • 语料库相关:我们还有很多纯粹的纸质文献资料电子化工作可以做:包括我已经完成的连江县志方言卷的词汇部分;手头规划的《连江谚语集成》,《连江渔村方言调查研究》中的词汇等等。
  • 还有就是榕典中缺乏宁德福安一带的词汇库,如果我们能够帮忙做好这方面的工作,也非常利于方言保护(让榕典成为闽东地区的方言词典,而不是福州市区的方言词典)。
  • 这个工作就是纯校对和打字,很容易实现。
近一千条谚语
近一千条谚语

b) 对比地区间音韵、词汇、习语,探究闽东方言的小地域内部差异与临近地域比较

闽方言内部差异大,包括一个方言区,一个县域内的方言差异也可明显感知;在多数文献中,对一个县域的内部差异略过。我们希望做一个县域内的多点调查,尽可能描绘出这个差异不大,到底不大到什么程度,并试图结合地理分布做出一些差异产生原因的解释。同时可以对霞浦,连江两地区并行开展这种调查,这样依赖都可以在各自的范围进行差异分析,也可以将临近县域进行比对。
notion image
1>我们要调查什么?
我对连江县域内的调查,最好的规划是在全部23个乡镇采点调查
1.调查声母、韵母(注意入声尾韵)、声调
notion image
notion image
notion image
2.调查连读变调
3.调查声母类化
notion image
notion image
4.调查与戚林八音音系差别
notion image
2> 怎么调查:
  • 找到合适的发音人拿调查表问字并记录录音,当场记录一些重要信息就好。
  • 如果录音质量好都能放在Praat里面分析自然是最好的,当然应该没那么容易。
  • 我们至少要保证有一些比较重要或者比较方便的调查点(大概选取两到三个)能放软件里边分析。
notion image
霞浦那边也可以是类似的。

c) 闽东地区继承语者的语言能力探究

 
鲾科分类笔记TCGA癌症数据的主成分分析和概念描述
  • Giscus