type
status
date
slug
summary
tags
category
icon
password
Property
Mar 6, 2024 11:23 AM
Created time
Jan 31, 2024 05:37 PM
课题计划:
a) 福州话音频识别相关与语料库相关
- 简单的目标是实现把用户发来的福州话单个词汇的录音识别成音标(或榕拼),然后把这个结果用来查询榕典,方便不熟悉音标的用户使用榕典;
- 进阶一些,能够做到一整话或者一整段话转换成榕拼,这样的话可以有这样的应用场景:(长辈微信上发来语音,我现在在的场合不方便外放,可以先转成音标了解一下内容)
- 最好的结果自然是在识别出音标的基础上转成直观的文字
下面是一个语音识别的实现项目介绍(应该不会是我们最后选择的方案,只是选了一个介绍):
1>本项目声学模型通过采用卷积神经网络(CNN)和连接性时序分类(CTC)方法,
2>使用大量中文语音数据集进行训练,将声音转录为中文拼音,
3>并通过语言模型,将拼音序列转换为中文文本。
1部分已经有前人的许多开源项目支持了,而且也能找到前辈协助,主要会由我负责处理这个开头
2部分我们要把很多的词汇音频靠我们自己人工去听,转写成音标(或汉字),这样就有了映射关系,把一大堆映射关系扔给电脑去学习就好。这个工作大部分人都可以参与。
3是比较高阶的任务,如何协调再议。
- 语料库相关:我们还有很多纯粹的纸质文献资料电子化工作可以做:包括我已经完成的连江县志方言卷的词汇部分;手头规划的《连江谚语集成》,《连江渔村方言调查研究》中的词汇等等。
- 还有就是榕典中缺乏宁德福安一带的词汇库,如果我们能够帮忙做好这方面的工作,也非常利于方言保护(让榕典成为闽东地区的方言词典,而不是福州市区的方言词典)。
- 这个工作就是纯校对和打字,很容易实现。
![近一千条谚语](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F424383f1-95a3-4f43-b935-4c86c26b98d6%2FUntitled.png?table=block&id=f7316881-4869-41c9-943f-9b343b4cd27e&t=f7316881-4869-41c9-943f-9b343b4cd27e&width=336&cache=v2)
b) 对比地区间音韵、词汇、习语,探究闽东方言的小地域内部差异与临近地域比较
闽方言内部差异大,包括一个方言区,一个县域内的方言差异也可明显感知;在多数文献中,对一个县域的内部差异略过。我们希望做一个县域内的多点调查,尽可能描绘出这个差异不大,到底不大到什么程度,并试图结合地理分布做出一些差异产生原因的解释。同时可以对霞浦,连江两地区并行开展这种调查,这样依赖都可以在各自的范围进行差异分析,也可以将临近县域进行比对。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F01a4cb62-e7d5-4d88-b2a8-2e440244d392%2FUntitled.png?table=block&id=9da3f461-056c-4a9f-9ba4-4e5541dde567&t=9da3f461-056c-4a9f-9ba4-4e5541dde567&width=384&cache=v2)
1>我们要调查什么?
我对连江县域内的调查,最好的规划是在全部23个乡镇采点调查
1.调查声母、韵母(注意入声尾韵)、声调
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F07542c17-5ec1-4e48-ac30-484e11b0b2a4%2FUntitled.png?table=block&id=e00f04c4-9f38-4dbc-92f7-276875ddc691&t=e00f04c4-9f38-4dbc-92f7-276875ddc691&width=384&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F2baab951-daf3-45b6-8335-87d419cdbed9%2FUntitled.png?table=block&id=935d75b8-6ac0-4552-b126-c1520d5cb3f5&t=935d75b8-6ac0-4552-b126-c1520d5cb3f5&width=336&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2Fb87b02bc-2de9-4b61-a4b7-fc62d4bab723%2FUntitled.png?table=block&id=ba4f82a5-3731-4510-ac61-cf5852d4d53e&t=ba4f82a5-3731-4510-ac61-cf5852d4d53e&width=384&cache=v2)
2.调查连读变调
3.调查声母类化
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F8b7b92bd-418a-4e17-ad75-4a48bb32af36%2FUntitled.png?table=block&id=e1b8d1f8-0a9c-4c24-815e-c988beadb5d5&t=e1b8d1f8-0a9c-4c24-815e-c988beadb5d5&width=432&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F69cb9ac1-0971-4a21-8477-f2775ea29e29%2FUntitled.png?table=block&id=9d3fdef7-9e10-4421-b155-989ca8b11fca&t=9d3fdef7-9e10-4421-b155-989ca8b11fca&width=336&cache=v2)
4.调查与戚林八音音系差别
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F3331933d-0d5d-48ac-ba97-f272726dc66e%2FUntitled.png?table=block&id=d50a0ecc-babc-43bb-b3fc-8245bf2183af&t=d50a0ecc-babc-43bb-b3fc-8245bf2183af&width=432&cache=v2)
2> 怎么调查:
- 找到合适的发音人拿调查表问字并记录录音,当场记录一些重要信息就好。
- 如果录音质量好都能放在Praat里面分析自然是最好的,当然应该没那么容易。
- 我们至少要保证有一些比较重要或者比较方便的调查点(大概选取两到三个)能放软件里边分析。
![notion image](https://www.notion.so/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F9725cc78-98b5-44da-a6e9-2c9dbc05b693%2FUntitled.png?table=block&id=21a85d78-baf8-47ae-911b-7d2d1d471435&t=21a85d78-baf8-47ae-911b-7d2d1d471435&width=528&cache=v2)
霞浦那边也可以是类似的。
c) 闽东地区继承语者的语言能力探究
- 作者:叶修齐
- 链接:https://notion.siuze.top/article/eeb777bc-47bc-4186-96c4-f9c2326d169e
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。