LABB-CAT(语言学研究工具)
语言学的研究从职业热门程度来说比较冷,其所需付出的精力不是一般职业可以替代的,LABB-CAT要先查找大量的资料,寻访当地的老人们来做好语言的收集,另外还要对语言搭配的发音规范做调整,生僻语言的研究正是如此,不会说一帆风顺,花费的时间很多,但是找到失传语言的特性是比较富有成就感的。
LABB-CAT不花钱版软件性能
媒体和记载本的存储
LaBB-CAT素质上是一个音频/视频记载的时间对齐誊本的存储库。 可以使用Transcriber、Praat或ELAN(可用于建立一个文件,将誊本文本与音频/视频记载中的响应定位对齐)建造时间对齐的誊本。然后,誊本被上传到LaBB-CAT,它许可存储有关讲话人和誊本的附加信息。
来自Transcriber、Praat或ELAN的誊本。
收罗定见的义务
您还可以界说引诱义务,包罗提醒介入者浏览和成绩,让他们回覆。
当介入者完成义务时(运用他们的阅读器或挪动产品),他们的语音会被记载上去并主动直接上传到LaBB-CAT。
主动正文
连系旌旗灯号数据、原始正字转写本和一些第三方数据和东西,可以对转写本开启主动标注,例如。
辞汇标签
来自CELEX的正文借助CELEX的数据,可以用更多的数据主动正文单词。
语音学
讲授纲领
形状学
语气
频率
其他辞书也能够整合,包罗CMU发音辞书和Unisyn辞书。
强迫对齐
在HTK或WebMAUS的帮忙下,在语句层面临齐的手本可以强迫对齐到词和段层面。
用HTK强迫对齐
统计层
LaBB-CAT信息库自己的词频数据可以直接对每一个词开启计较和标注。
词频层
说话学探讨和字数(LIWC)可以用来比力语料库和参评语料库。
LIWC比力
连系CELEX的时间排序信息和音节数,可以计较出各种范畴的语音率。
每分钟的音节数,行和转弯的音节数
斯坦福解析器
在Stanford Parser的帮忙下,可觉得转录本转换可编纂的句法树。
逾越句法成份的正文。
解析树暗示法
剧本可以用Python或Javascript编写,以履行arbtrary计较和正文义务。
用于计较对偶变异性指数的Python剧本
IBM Watson人格洞察力
LaBB-CAT可以与IBM Watson的Personality Insights收集服务集成,对手本开启人格解读。
手动正文
正文可以手动加入,好比说。
主题标签
针对单个单词的文本标签
时间点或区间可使用Praat开启正文。
运用Praat对点开启标注
检索
一旦记载本和正文到位,便可以对合适特定尺度的记载本开启搜刮(例如,基于讲话者的春秋/性别、记载本所属的语料库等)。
按属性过滤讲话者
当讲话者被选中后,可以在各种的层中搜刮他们的语句,以寻觅文本或惯例表达。
在 成人 话题中搜刮 the,然后在音素层搜刮以I、E、i或@开首的单词。
这将前往与查询相婚配的所选手本中一切语句的列表。
搜刮成果
若是需求,可以将此列表连同相干的演讲者和正文信息直接导出到csv文件,以便在Excel或R中开启进一步解读。
搜刮成果
或可以提取音频样本开启解读。
从成果中提取音频
或可以直接运用EMU-webApp编纂语句正文和对齐。
运用EMU-webApp编纂手机对齐。
若是语句已被强迫对齐,可以用Praat对方针语段开启批量处置。
用Praat开启批量处置,以提取形体和其他声学办法。
批量Praat处置可以包罗您本身的自行设置Praat剧本。
自行设置Praat剧本,用于搜刮成果的批量处置。
别的,点击搜刮前往的语句,就会发生有关讲话者的完全文字记载,与相干语句一路置于屏幕顶部。可以点击誊本的任何部门,并播放媒体的响应部门。
交互式文字稿
直接从交互式转录页面播放媒体,展示其他正文层,提取该行的音频,或在 Praat 中翻开包括正文的响应 TextGrid。可以加入、编纂或删除正文,并调剂对齐技巧。
小编测评
LABB-CAT能够给语言专业领域的研究人员们使用最为适合,首先该软件和很多信息收集类软件有比较大的出入地方,另外为了解析出当前语言实实在在的特性,所以还加入了大量的文本框区域,自动收集并形成网络状的语言结构,把大量分散的信息串联到一起在数据搜索工作以后是重中之重。
以上就是LABB-CAT(语言学研究工具)的全部内容了,快快收藏软件爱好者下载更多软件和游戏吧!