EMNLP 2022 (The 2022 Conference on Empirical Methods in Natural Language Processing)是復(fù)旦自然語言處理領(lǐng)域的頂級國際會議,由國際語言學(xué)會SIGDAT小組在世界范圍內(nèi)每年召開一次。大學(xué)隊篇在本次會議中,計算機科復(fù)旦大學(xué)自然語言處理實驗室FudanNLP共計14篇長文被錄用,學(xué)技其中包括9篇主會文章和5篇Findings文章。術(shù)學(xué)2022年冬季,院自言處研團EMNLP 2022將以混合形式在阿聯(lián)酋阿布扎比(Abu Dhabi)舉行,然語所有參與者都可以在會場現(xiàn)場或虛擬加入。理科錄用
9篇主會文章簡介
1. ProofInfer: Generating Proof via Iterative Hierarchical Inference
作者:費子楚,長文張奇,復(fù)旦周鑫,大學(xué)隊篇桂韜,計算機科黃萱菁
文章針對證明樹生成任務(wù)提出一個通過迭代層次推理生成證明樹的學(xué)技模型并采用分治算法,將證明樹遞歸地編碼為純文本,術(shù)學(xué)同時預(yù)測層中的院自言處研團所有節(jié)點且不會丟失結(jié)構(gòu)信息。
2、Kernel-Whitening: Overcome Dataset Bias with Isotropic Sentence Embedding
作者:高頌楊,竇士涵,張奇,黃萱菁
文章針對數(shù)據(jù)集偏差問題引入兩種去偏差方法。一是表示標準化,消除編碼句子的特征之間的相關(guān)性,另一個是 ”核白化”方法來實現(xiàn)對非線性虛假相關(guān)性更徹底的去偏。實驗表明,該方法在時間和效果上都有不錯的提升。
3、ReLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees
作者:劉騰霄,郭琦鵬,胡祥坤,張岳,邱錫鵬,張崢
文章首次將強化學(xué)習(xí)方法引入蘊涵樹生成任務(wù),提出一種基于強化學(xué)習(xí)的蘊涵樹生成框架,利用整個樹的累積信號進行訓(xùn)練。它使用句子選擇和結(jié)論生成兩個模塊迭代地執(zhí)行單步推理,使用與評估方法一致的獎勵函數(shù)進行訓(xùn)練信號的累積。
4、CodeRetriever: A Large Scale Contrastive Pre-Training Method for Code Search
作者:李孝男,宮葉云,諶葉龍,邱錫鵬,張航,要博倫,齊煒禎,姜大昕,陳偉柱,段楠
文章針對代碼文本對的構(gòu)建任務(wù)提出了單模態(tài)和雙模態(tài)的對比學(xué)習(xí)策略。對于單模態(tài)的對比學(xué)習(xí),以無監(jiān)督的方式根據(jù)代碼中的自然語言信息,來構(gòu)建具有相似功能的代碼對。對于雙模態(tài)的對比學(xué)習(xí),則利用代碼的文檔和存在于代碼中的零散注釋來構(gòu)建代碼文本對。
5、BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation
作者:孫天祥*,何俊亮*,邱錫鵬,黃萱菁
文章研究了生成文本質(zhì)量的自動化評測指標存在的公平性隱患。這種評測的不公平性會在模型選擇的過程中鼓勵富有偏見的生成系統(tǒng),進一步加深模型及其生成數(shù)據(jù)的社會偏見。
6、BBTv2: Towards a Gradient-Free Future with Large Language Models
作者:孫天祥,賀正夫,錢鴻,周云華,黃萱菁,邱錫鵬
文章在Black-Box Tuning的基礎(chǔ)上提出了BBTv2,使用深層prompt代替原有的輸入層prompt,并提出一種基于分治的無梯度優(yōu)化方法對其進行交替優(yōu)化,在多個少樣本學(xué)習(xí)任務(wù)上僅優(yōu)化千分之三的參數(shù)取得了和全參數(shù)微調(diào)相仿的性能。
7、Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer?
作者:徐凝雨,桂韜,馬若恬,張奇,葉婧婷,張夢翰,黃萱菁
文章研究了多語言 BERT的遷移過程,證明了不同語言分布之間的距離與語言間的形式句法差異高度一致。多語言 BERT學(xué)習(xí)得到的語言間句法結(jié)構(gòu)的差異對零樣本遷移效果有著決定性的影響,并可以利用語言間的形態(tài)句法屬性差異進行預(yù)測。
8、Efficient Adversarial Training with Robust Early-Bird Tickets
作者:奚志恒*,鄭銳*,桂韜,張奇,黃萱菁
文章提取出結(jié)構(gòu)化稀疏的魯棒早鳥彩票(即子網(wǎng)絡(luò))并設(shè)置一個彩票收斂指標來實現(xiàn)一種高效的對抗訓(xùn)練方法,從而提升預(yù)訓(xùn)練語言模型魯棒性。
9、TextFusion: Privacy-Preserving Pre-trained Model Inference via Token Fusion
作者:周鑫,陸勁竹,桂韜,馬若恬,費子楚,王宇然,丁勇, 張軼博,張奇,黃萱菁
文章提出了一種保存端云協(xié)同推理階段隱私的新方法。它包含一個融合預(yù)測器來動態(tài)地融合詞表示,將多個可能含有隱私的詞表示融合為一個難以識別的詞表示。此外,文章采用了一種誤導(dǎo)性的訓(xùn)練方案來使這些表示進一步被干擾。
5篇Findings文章簡介
1、Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with User Simulator
作者:程沁源*,李林陽*,權(quán)國風(fēng),高峰,牟曉峰,邱錫鵬
文章提出了一個用于TOD的交互式評測框架:首先基于預(yù)訓(xùn)練模型構(gòu)建了一個面向用戶目標的用戶模擬器,然后使用用戶模擬器與對話系統(tǒng)交互以生成對話,并在交互式評測中引入了句子級和會話級分數(shù)來衡量對話的流暢度和連貫性。
2、DORE: Document Ordered Relation Extraction based on Generative Framework
作者:郭琦鵬*,楊雨晴*,顏航,邱錫鵬,張錚
文章提出了從關(guān)系矩陣中生成一個符號化的有序序列的范式,使模型更容易學(xué)習(xí)。此外,該文章設(shè)計了一種平行行生成的方法來處理過長的目標序列,引入了幾種負采樣策略來利用更平衡的信號提高模型性能。
3、Soft-Labeled Contrastive Pre-Training for Function-Level Code Representation
作者:李孝男*,郭達雅,宮葉云,林云,諶葉龍,邱錫鵬,姜大昕,陳偉柱,段楠
文章提出一種基于軟標簽訓(xùn)練方式的代碼對比預(yù)訓(xùn)練框架SCodeR來學(xué)習(xí)更好的函數(shù)級代碼表示。此外,該研究團隊還提出了一種基于代碼上下文和抽象語法樹的正樣例構(gòu)造方法ASST,來幫助模型能夠更好地捕獲代碼中的語義特征。
4、Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts
作者:劉向陽,孫天祥,黃萱菁,邱錫鵬
文章探索了Prompt Tuning性能較弱的原因,并基于此發(fā)現(xiàn)提出了一個更好更高效地驅(qū)動預(yù)訓(xùn)練模型的方法Late Prompt Tuning(LPT),能夠取得很有競爭力的結(jié)果,同時具有更快的訓(xùn)練速度和更低的內(nèi)存成本。
5、Weight Perturbation as Defense against Textual Adversaries
作者:徐健涵,李林陽,張稷平,鄭驍慶,Kai-Wei Chang,Cho-Jui Hsieh,黃萱菁
文章探索了通過在參數(shù)空間而不是輸入特征空間進行擾動來提高NLP模型對抗魯棒性的可行性。當(dāng)權(quán)重擾動與輸入嵌入空間中的擾動相結(jié)合時,可以顯著提高NLP模型的魯棒性,從而在不同數(shù)據(jù)集的原始樣本和對抗樣本中獲得最高預(yù)測準確率。
制圖:實習(xí)編輯:何浩然責(zé)任編輯:李斯嘉