王明文(教授、博导)论文著作
发布时间: 2022-03-23 浏览次数: 23

王明文(教授、博导)论文著作

序号

著作或论文名称

出版单位或发表刊物名称及时间

主要观点

1

Corpus-based research on English word recognition rates in primary school and word selection strategy

Frontiers of Information Technology & Electronic Engineering, 2017

学习英语时,词汇的获取是很重要的,因为它有助于听、说、读和写。本文开发了一个英文网页语料库(EWC),并利用网络爬虫技术创建了一个词频列表。通过将EWC词表与英国国家语料库(BNC)进行比较,本文发现BNC词频率表具有时效性的特点。此外,本研究还通过比较几个语料库的词频表,包括EWCBNC、微妙-美国语料库和儿童BBC(CBBC)的字幕语料库,探讨小员工的英语单词识别率。结果表明,小员工在一般语言和特定语言语域的词语识别率都较低。根据得到的实验结果,本文最后提出了小学英语教材的选词策略。

2

A Fast Proximal Gradient Algorithm for Decentralized Composite Optimization over Directed Networks

Systems & Control Letters, 2017

本文提出了一种求解有向网络多智能体系统一致优化问题的快速分散算法,其中局部目标函数具有平滑非平滑的复合形式,可能是非凸的。本文将已有的算法PG-EXTRAExtraPush扩展为一个新的算法PG-ExtraPush,用于有向网络上的复合共识优化。该算法利用pm - extra中的接近算子处理非平滑项,利用ExtraPush中的推和协议处理有向网络引入的偏置。在适当的步长条件下,本文证明了在一定规则的假设条件下,gp - extrapush以线性速度收敛于最优解。本文进行了一系列的数值实验,以证明该算法的有效性。具体来说,在适当的步长下,pm - extrapush在大多数情况下(甚至在一些非凸情况下)执行线性速率,而且比Subgradient-Push速度快得多,即使后者使用手动优化的步长。数值计算结果也验证了所建立的理论结果。

3

Modeling Monolingual Character Alignment for Automatic Evaluation of Chinese Translation

ACM Transactions on Asian and Low-Resource Language Information Processing, 2016

机器翻译的自动评估是一项重要的任务。大多数现有的评估指标依赖于匹配相同的单词或n-gram结构。这种策略导致中文翻译的结果很差,因为人们只能依赖于匹配相同的字符。本文提出了一个新的评估度量,它允许具有相同或相似含义的不同字符进行匹配。提出了一种间接隐马尔可夫模型(IHMM),在字符层次上实现中文翻译与人工参考的对齐。该模型利用字符相似度(包括字符语义相似度和字符表面相似度)估计发射概率,利用启发式距离失真模型估计转移概率。在IWSLT ' 08 CT-ECNIST ' 08 EC任务中评估提交的英汉翻译系统输出时,实验结果表明,与最先进的机器翻译指标(BLEUMeteor UniversalTESLA-CELAB)相比,所提出的指标与人工评价的相关性显著更好。本文的研究表明,在中文翻译的评价中允许不同的字符匹配是很重要的,IHMM是一种合理的中文对齐方法。

4

基于Spatial-DCTHash动态参数网络的视觉问答算法

中国科学:信息科学,2017

随着深度学习和多模态融合的深入研究,问答系统从传统的纯文本方式扩展到结合图片的视觉问答,成为计算机视觉与自然语言理解的交叉研究热点.Hyeonwoo等最新提出的动态参数预测模型(DPPnet)能够简单、有效地实现问句和图片信息的融合.但是该模型在进行网络参数动态Hash分配时位置随机,缺乏图像内容空间分布的考虑.针对此不足,本文提出一种新的空间离散余弦Hash动态参数网络.算法采用全卷积方式提取保留图像内容空间分布信息的conv7特征.在此基础上,利用问题信息生成具有一定空间结构性的卷积核,实现问题与图像信息融合预测视觉答案的过程.COCOqaMSCOCO-VQA两个公开数据集上与同期主流算法进行了实验对比,实验结果表明,本文的网络模型较以往的模型能够更为精确地预测视觉问答答案.

5

基于神经网络特征的句子级别译文质量估计

计算机研究与发展,2017

机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.WMT-15WMT-16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果.

6

基于情感分析的“真假美猴王”存疑研究

中文信息学报,2019

《西游记》是我国四大名著之一。"真假美猴王"事件作为《西游记》的高潮部分,留下了不少伏笔,也引发了多种解读。该文通过运用情感分析的方法,"真假美猴王"事件前后孙悟空与其他角色的对话进行分析。通过比较孙悟空在"真假美猴王"事件前后,对其他角色情感值的变化,得到了"孙悟空并没有被如来打死,‘真假美猴王’事件消灭的‘心魔’是孙悟空的反抗精神。事件之后,孙悟空选择屈服于神权"的结论。初步探索了情感分析技术对文学研究的可行性。

7

融合卷积神经网络与层次化注意力网络的中文文本情感倾向性分析

中文信息学报,2019

文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题:一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷积神经网络与层次化注意力网络的优点提出了一种深度学习模型C-HAN(Convolutional Neural Network-based and Hierarchical Attention Network-based Chinese Sentiment Classification Model),先用并行化卷积层学习词向量间的联系与组合形式,再将其结果输入到基本单元为双向循环神经网络的层次化注意力网络中判定情感倾向。实验表明:模型在中文评论数据集上倾向性分类准确率达到92.34%,和现有多个情感分析模型相比有所提升;此外,对于中文文本,选择使用字级别词向量作为原始特征会优于词级别词向量作为原始特征。

8

语义耦合相关的判别式跨模态哈希学习算法

计算机学报,2018

基于哈希的跨模态检索以其存储消耗低、查询速度快等优点受到广泛的关注.跨模态哈希学习的核心问题是如何对不同模态数据进行有效地共享语义空间嵌入学习.大多数算法在对多模态数据进行共享空间嵌入的过程中忽略了特征表示的语义判别性,从而导致哈希码表示的类别区分性不强,降低了最近邻搜索的准确性和鲁棒性.该文提出了基于语义耦合相关的判别式跨模态哈希特征表示学习算法.算法在模型的优化目标函数设计上综合了线性判别分类器的思想和跨模态相关性最大化思路,通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码.同时利用耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,不仅克服了把多种数据投影到一个共同嵌入语义空间的缺陷,而且能够捕捉到不同模态之间的语义相关性.算法在WikiLabelMe以及NUS_WID三个基准数据集上与最近相关的算法进行了实验比较.实验结果表明该文提出的方法在检索精度和计算效率上有明显的优势.

9

实体驱动的双向LSTM篇章连贯性建模

中文信息学报,2017

篇章连贯性建模是自然语言处理研究领域的一个基础问题。主流的篇章连贯性模型分为两大类,分别是基于实体网格的连贯性模型和基于神经网络的篇章连贯性模型。其中,基于实体网格的篇章连贯性模型需要进行特征提取,而基于深度学习的模型没有充分考虑篇章中句子间的实体链接对连贯性建模的重要作用。基于此,该文首先抽取篇章中相邻句子的实体信息,将其进行分布式表示,然后将此信息通过多种简单且有效的向量操作融合至句子级的双向LSTM深度学习模型之中。在汉语和英语篇章语料上的句子排序和中英文机器翻译连贯性检测两种任务上的实验表明该文提出的模型性能和现有模型相比有所提升,尤其在中文上有显著提升。

10

基于多尺度区域协方差的显著性特征提取方法

系统仿真学报,2018

针对显著性检测得到区域边界不精确且比较模糊,提出了基于多尺度区域协方差的显著性特征提取算法。提取图像多尺度特征,结合区域协方差提取图像底层特征,计算图像多尺度不确定度权值,对权值进行了优化处理,通过融合得到图像显著性特征。通过与常用的显著性特征提取算法进行比较,实验结果表明该算法提取的区域结果更加接近对象实际边缘,在显著性特征提取过程中对多尺度赋予不同的权值,突出人眼关注部分,能提升显著性特征提取效果。