從認知心理學視角分析詞類劃分論文
我們?yōu)槭裁匆獎澐衷~類?作為一種語法研究方法,詞類劃分體現了怎樣的哲學觀和認知觀?詞類所示意義與話語深層結構有怎樣的關系?如何才能擺脫漢語詞類劃分的困境?本文將從認知心理的視角尋求問題的答案。
一、漢語詞類劃分的困境
詞類劃分一般遵循以下幾類標準。
1.詞法形態(tài)標準。具有悠久的歐洲語法學傳統(tǒng),對形態(tài)豐富的印歐系語言等適用。它發(fā)生于古典希臘語地區(qū),傳承于拉丁語地區(qū),又主要發(fā)展成熟于法語、德語地區(qū),這些語言都是典型的綜合語,語法意義的表達主要依靠繁復的詞形變化,詞序等句法手段則相對次要,這種語言環(huán)境下建立的語法學體系,重詞法、輕句法的取向是順理成章的。只是,形態(tài)變化少的語言不適用詞法形態(tài)標準,須從詞的外部另尋標準。
2.句法功能標準。通常,名詞充當主、賓語;動詞充當謂語;形容詞充當定語;副詞充當狀語,分工明確、職責清晰。但對漢語仍然不適用,試看:你快樂嗎?怎樣才能擁有快樂?快樂是人生的真諦。我愿做一只快樂的小鳥,快樂地面對每一天,也愿你每天都過得快樂!"快樂"可以充任全部六種句子成分,這是詞的兼類?抑或詞性活用?無怪乎我們感嘆漢語詞類研究的困局:若詞有定類,則類無定職;若類有定職,則詞無定類。既然形式無法解決,就只能求助于意義了。
3.概括語義標準。通常名詞表示事物、動詞表示過程、形容詞表示性質和狀態(tài)、數詞表示數量,等等。概括語義符合人們思維意識中對詞項所表達意義的主觀感受,在跨語言對比中也有較高的接受度,這反映了詞性應該具有超越具體語言的普遍基礎,而形態(tài)變化等反倒可能僅是一種外在表象。據此標準,"學習"表過程,是動詞;"成功"表狀態(tài),是形容詞,但它們也都有名詞性的用法,因為我們賦予了"過程"和"狀態(tài)"被指稱的能力,它們已然演變?yōu)橐环N"事物"了?梢,概括語義也不能完全解決詞類問題。
4.分布標準。結構主義把詞類看成詞的分布,在詞的組合和聚合中確定詞的地位和價值。實質上這是一種綜合標準:聚合關系體現的是同類個體的共性,類似于同類詞具有相同的詞法形態(tài)變化;組合關系則反映了詞的搭配成句的能力,實現的正是詞的句法功能;而詞的概括語義則隱含在這兩類關系之中。分布在漢語界的影響力是巨大的,若干重要的語法學著作無不以此作為詞類劃分的主要依據;然其效果卻褒貶不一,原因在于分布綜合了太多的標準,依此分出的詞類數量往往很大,即便如此,在一個小類的內部,仍然無法保證所有成員的分布特征完全一致;但是,依據分布劃出的詞類具有描寫精確、覆蓋全面的特點,這在計算機自然語言處理領域,顯示出一定的優(yōu)勢。
針對漢語詞類劃分的困難,學界也不乏創(chuàng)見,現舉影響較廣的兩例:郭銳(2002)認為,詞從本質上說是詞的語法意義的類型,即詞的表述功能,如陳述、指稱、修飾等大的類型以及實體、位置、計量單位、數量、指示等小的類型。語法意義有不同的層次:性、數、格、時、體等表達的是較低層次的語法意義,是對概念意義的抽象;表述功能是較高層次的語法意義,它與語言的使用者關系密切,是在使用中表現出來的功能意義。郭銳進而又將表述功能劃分為內在和外在兩個層次,內在表述功能是詞語固有的表述功能,是歷時使用意義經約定俗成后固化的語法意義;外在表述功能是詞語在某個語法位置上所實現的表述功能,具有一定的靈活性。例如"小王黃頭發(fā)","小王"從哪個層面看都是指稱;"黃頭發(fā)"卻不一致,它的內在表述功能是指稱,外在表述功能則是陳述。
沈家煊(2009)提出了一種與眾不同的漢語詞類劃分方案:名詞、動詞、形容詞在印歐語中是分立關系,僅有少量的交叉;在漢語中則是包含關系,名詞包含著動詞,動詞包含著形容詞。這就很好地解釋了漢語中動詞可以充任主、賓語,形容詞可以充任幾乎所有句法成分的現象,但是包含關系卻不是分類的常規(guī)模式,名詞內部剔除動詞、形容詞之外的部分也應有相應的類屬,否則就無法構成一個平衡的分類體系。
漢語詞類劃分的困難依然無法解決,這促使我們反思,詞的定類與劃分作為一種語法學的研究方法,其科學性如何體現?它是否真能反映語言(特別是漢語)的普遍規(guī)律?是否是我們唯一的選擇?歸結為一個更為本質的問題:我們?yōu)槭裁匆獎澐衷~類?
二、詞類劃分是符號主義語言認知觀的產物
回答這個問題,要從一種長期主導語言研究(乃至科學研究)的認知心理范式--符號主義(Symbolism)說起,該范式認為人腦的思維活動牽涉三類成員:一是源符號;二是規(guī)則系統(tǒng);三是目標符號。思維過程可抽象為:一是源符號依次進入系統(tǒng);二是規(guī)則對輸入符號進行加工;三是生成并依次輸出目標符號。符號主義著重于模擬人腦的功能,運用規(guī)則和符號的串行處理,就可以實現判斷、選擇、邏輯推導等思維運算。
上世紀30年代,Turing將符號主義機制抽象為一種架構簡單卻功能強大的數學模型--圖靈機,圖靈機的初衷是模擬人們利用紙筆進行計算的行為:一是在紙的某個位置寫上或刪除一個符號;二是把注意力轉移到另一個位置;三是一套模擬人腦判斷能力的處理規(guī)則;四是一個模擬人腦記憶能力的狀態(tài)寄存器(佚名,1977)。圖靈機架構具有強大的包容性,現實生活的許多問題都可以改寫為圖靈機可接受的形式,交由其處理。
之后,Kleene在圖靈機的基礎上定義了有限狀態(tài)自動機(Finite-StateAutomaton),并證明其等價于圖靈機。正則表達式(RegularExpression)是FSA的另一種實現,它由一套表達匹配規(guī)則的元字符組成,元字符的組合可以描述一系列特定模式的目標字符串。自此,圖靈機作為處理語言現象的標準工具得到廣泛應用。
現以RE為例,簡述其工作原理:w[a-z]*er[s]可以表示任何以"w"開頭,以"er"結尾的單詞。其中,w表示以w起始,[a-z]表示任意一個小寫字母,*表示[]中的內容可以重復0或任意多次,后面是字母er,er后的[s]意為空字符,表示單詞結束。這就限定了一個符合特定要求的字符串,同樣,只要稍加改動,我們不難利用RE生成一個符合"SVO"或"NP+VP"的句子來。
作為符號主義機器,圖靈機、FSA和RE的基本架構是一致的,歸結為有限客體在有限規(guī)則控制下經歷的有限狀態(tài)的轉移,包括五個要素:一是有限的輸入符號;二是有限的系統(tǒng)狀態(tài);三是狀態(tài)轉移函數(有限的規(guī)則);四是系統(tǒng)初始狀態(tài);五是系統(tǒng)終極狀態(tài)(正常終止狀態(tài)、錯誤狀態(tài)等)。
這就是符號主義范式認知世界和模擬人腦思維的基本單元。雖然它略顯簡陋,但多個單元組合成系統(tǒng)后,就具有了強大的處理能力,足以解決生產生活中的大部分問題。我們編寫的計算機程序,無論多么復雜,最終都無一例外地分解為單一的圖靈機架構,這表明圖靈機具有強大的`描述和概括能力,Turing因此被尊為"現代計算機科學之父".
需要特別注意的是,圖靈機架構中有三處提到了"有限",即:有限的輸入符號、有限的狀態(tài)、有限的轉移規(guī)則。"有限"在符號主義范式中是十分重要的概念,其作用是把處理對象和處理過程限定在可控的范圍內。如果輸入符號是無限的,處理對象就不可控;如果狀態(tài)是無限的,則處理過程不可控;如果轉移規(guī)則是無限的,則系統(tǒng)將變得過于復雜而失去實用意義。
語言系統(tǒng)中存在若干集合,它們中大都是有限集合,例如音位集合、音節(jié)集合、聲調集合、詞法規(guī)則集合、句法規(guī)則集合、文字集合等,它們不經任何處理就能夠滿足圖靈機的輸入條件,成為圖靈機的處理對象。但是,詞匯語義卻有些特殊,它是無限的、開放的集合(指實詞),為了滿足符號主義處理機的要求,必須事先經過有限化改寫。于是,在符號主義幾乎一統(tǒng)天下的語法學界,尋求有效的語義有限化方法自然成了一項重要的基礎工作,各類方法也應運而生,其中具代表性的包括:語義場理論及義素分析法、邏輯語義分析、詞的定類及劃分、語義格分析等,它們都是符號主義語言認知觀下的最基礎的語義有限化方法。
遺憾的是,各種語義有限化的嘗試都不算成功[1],歸根結底,這都源于語義的開放性天生地與符號主義機器互不相容:完整的語義系統(tǒng)必須是一個無限元素的集合,而符號主義機器能接受的卻只是有限集合。這個矛盾使得任何語義有限化的嘗試都顯得捉襟見肘,左右為難,以犧牲語義細節(jié)為代價的有限化方法也許從根基上就是有缺陷的,我們需要尋找一種可行的替代方案。
三、聯(lián)結主義語言處理機不依賴語義分類
作為符號主義的反撥,聯(lián)結主義(Connectionism)從人的自然生理結構出發(fā),把人腦看成由眾多節(jié)點相互聯(lián)結組成的復雜關系網絡,認知活動就是通過激發(fā)節(jié)點間的信息傳導,引起節(jié)點狀態(tài)的改變、數量的增減和相互關系的重置,并再次達到穩(wěn)定平衡的過程。聯(lián)結主義把關注的重點由規(guī)則移到了結構,認為規(guī)則并不具體存在于符號序列,而是在信號的激發(fā)和傳導過程中從多維網絡結構中自然浮現出來。
聯(lián)結主義機制具有以下特征。
1.節(jié)點。節(jié)點是對人腦神經細胞的模擬,是構成網絡的基本單元。人體中大約有1000億個神經細胞,每個細胞通過樹突和軸突分別與上千個其他神經細胞相連,構成一個龐大復雜的網絡。網絡的每個節(jié)點都是一個基本的信息存儲器和處理器,它從其他節(jié)點獲取信息,進行加工、存儲并繼續(xù)傳輸。每個節(jié)點都處在一定的狀態(tài)中,或者休眠,或者激活,或者某個中間活性量。當節(jié)點獲取的信息量超過一定閾值,或者一定時間沒有信息輸入時,就會引起節(jié)點狀態(tài)的改變。節(jié)點可以增殖、湮滅或合并。語言系統(tǒng)的詞或詞素,反映的是人腦中的思維概念,它們都可以看作聯(lián)結主義系統(tǒng)中的節(jié)點。
2.關系。關系由節(jié)點間的聯(lián)結狀態(tài)和聯(lián)結方式決定。聯(lián)結方式指具體與哪些節(jié)點相聯(lián);聯(lián)結狀態(tài)指聯(lián)結的緊密程度,可以用權重來衡量,權重值可以調節(jié),降為零意味著聯(lián)結斷裂,升為一意味著兩個節(jié)點的合并。符號主義是基于規(guī)則的,它依據規(guī)則對符號進行串行處理,規(guī)則是一切行動的綱領;聯(lián)結主義是基于關系的,它依據節(jié)點間關系的不同狀態(tài)來選擇處理信息的不同方式,同時依靠節(jié)點間權重的調節(jié)來存儲信息。因此,聯(lián)結主義實質就是一個研究關系和關系變化的范式,它可以很好地解釋詞或詞素之間的多維語義關系。
3.并行。也稱分布式處理,是人腦的本質特征之一,它使人類擁有了迅速處理復雜信息的能力,例如在一個嘈雜的環(huán)境中聽取一段話語,或者瞬間看懂一幅油畫的內容,等等。人腦的這種能力來源于它的網絡結構,即節(jié)點和聯(lián)結數量的廣泛性和平行性,由此一個電脈沖可以經由多條路徑和多個節(jié)點到達終點,這就是并行的實質。與此相對,計算機基本上是一個串行處理器,雖然它也可以模擬并行處理,但這是依靠把時間切成小片分配給不同的線程來實現的,實質上是一種偽并行。我們理解一個句子,依賴于對詞項間多維關系的并行分析,后文將進一步說明。
4.容錯性。符號主義的串行處理不能容忍錯誤的存在,前后步驟環(huán)環(huán)緊扣使得任何一環(huán)發(fā)生錯誤,都會導致不可預計的結果。聯(lián)結主義網絡實行分布式處理,任何一個具體的節(jié)點或聯(lián)結都不是系統(tǒng)功能的唯一承擔者,當系統(tǒng)的一部分發(fā)生錯誤或阻斷時,可以激活備選節(jié)點和路徑加以替代,也就是說,網絡系統(tǒng)具有冗余性的特征。這種機制在多數情況下可以補全信息,糾正錯誤,順利完成認知任務。我們能理解斷續(xù)的話語、讀懂拼錯的生詞,進行天馬行空式的聯(lián)想和非邏輯性的推理等等,這些認知能力大都建立在腦結構的冗余性特征之上。
5.自學習。聯(lián)結主義建立起反饋機制對認知活動進行校驗和控制。校驗的目的是判定信息處理的正確性和認知活動的有效性。當結果發(fā)生偏差時,系統(tǒng)會自動調節(jié)節(jié)點的狀態(tài)、數量、聯(lián)結方式,并再次對輸出進行反饋、校驗和調節(jié)。經過多次循環(huán),偏差達到極小,對信息的處理和認知達到最佳,系統(tǒng)狀態(tài)得到強化和鞏固。這就是聯(lián)結主義網絡的學習和記憶模式,它可以很好地模擬我們學習新詞和新表達方式的過程,而符號主義模型則不具備自主學習的能力。
6.遺忘。網絡需要持續(xù)的信息刺激以維持當前的狀態(tài),如果得不到適當的信息輸入,隨著時間的推移,聯(lián)結會逐漸降低權重乃至斷裂,節(jié)點會逐漸喪失活性乃至消失,這就是遺忘。遺忘是人腦的重要特征,適度的遺忘并不會嚴重影響認知活動的順利進行,反而對保護大腦不受垃圾信息侵擾有重要意義。符號主義范式不能容忍錯誤,更加不能容忍遺忘,其每一條規(guī)則都是確實的,任何一項規(guī)則的丟失都有可能中止系統(tǒng)的運行。
7.規(guī)則浮現。規(guī)則在聯(lián)結主義模式下具有"浮現特性"(EmergentProperties)。沈家煊(2004)指出,聯(lián)結主義網絡通過單元、激活、抑制、聯(lián)結等特征能夠有效地表征言語行為,而這種表征達到的有效程度使人覺得仿佛其背后有語法規(guī)則的支配。規(guī)則本身不需要在系統(tǒng)中明確表征,但卻通過網絡"浮現"而出。這就如同蜜蜂筑巢,主觀上并不依據六角形規(guī)則,但群體行為的結果是蜂巢的每一個孔格都受到多方向擠壓而呈現出六角形狀。
聯(lián)結主義范式的如上特征使其具有了"軟處理"的能力,即輸入內容沒有嚴格的限制,處理過程沒有唯一的路徑,輸出信息沒有必然的結果。這不同于可重復驗證的非零即一的符號主義范式,而與人腦的模糊認知和模糊反應有著很多相似之處。軟處理不對處理對象做出限定,因此,聯(lián)結主義范式下的語言觀不以有限性為前提,不以語義切分為基礎研究方法,而是建立在無限元素、普遍聯(lián)系的"百科知識網絡"之上。
聲音是時間上的連續(xù),文字是空間上的連續(xù),它們都可以進行切分。意義則不同,它占據的是認知心理的空間,能否切分或者如何切分,就不是一目了然的事。
詞是能夠獨立運用的最小語言單位,作為意義的載體,詞大致對應于概念這個認知單位。詞可以切分為詞素,但詞義并不等于詞素義的簡單相加,因此這只是形式而非意義的切分。詞義也可以切分為義素,但這種切分帶有很強的主觀性,而且并不能構建一個可以合成任何詞義的"義素周期表".詞義(義位)切分的困難提示我們,人腦對概念的認知和表達也許并不依賴于概念內部若干要素(語義成分)的組合,而是依賴于概念外部的要素,即概念之間的關系。
以Lakoff與Johnson為代表的認知語言學者明確反對用形式化的方法切分語義,反對語義成分分析法,認為人們對意義的理解并不是簡單的成分相加,而是必須建立在個人知識背景及百科知識網絡之上。以單詞"knee"為例,我們一般不會從分析語義成分開始理解和描述它,相反,我們更容易想到的是腿、靈活性、運動性、關節(jié)、支撐等由身體經驗構建的語義知識庫。對于另一些從未接觸過的生詞,只要上下文提供足夠多的詞義之間的關系,我們同樣可以很好地理解它,并把它納入百科知識網絡。這種自頂向下、自外而內的語義認知觀是對傳統(tǒng)的語義成分分析的顛覆,它完全承認了語義無限狀態(tài)的合理性,所以只把精力放在如何忠實地描述語義體系的結構和語義理解的過程,而放棄了切分提取語義單元的無謂勞動。
顯然,認知語言學關于百科知識網絡的提法與聯(lián)結主義的語言結構觀是一脈相承的,它的一個主要觀點認為句法不是自足的系統(tǒng),句法分析不能脫離語義,而語義描寫必須參照開放的知識系統(tǒng)(Langacker,1987)。Fillmore用"框架("Frame)描述這個開放的知識系統(tǒng),建立起基于廣泛概念關系網絡的框架語義學,并于1997年起帶領團隊著手實現在線詞庫FrameNet[2].除了FrameNet,美國普林斯頓大學的WordNet[3]、國內董振東的HowNet[4](知網)以及黃增陽的HNC[5]
(概念層次網絡)也是以描寫廣泛語義關系為主旨的詞庫工程,它們可看作聯(lián)結主義認知觀下語言學研究的基礎工程,雖然工作量巨大,且距離實際應用還有差距,卻為語言學研究最終擺脫符號主義范式的束縛、擺脫傳統(tǒng)詞類劃分的困境提供了可能的途徑。
四、語法是概念多維關系經語言線性化后的補償機制
概念關系是多維的、普遍聯(lián)系的。深層語義結構依賴立體空間表達概念關系,立體空間可以容納龐大的拓撲數據量,因此不需要語法單位的參與就可以勝任復雜關系的表達。前述聯(lián)結主義的概念網絡模型,即是一種多維關系網絡,針對每個節(jié)點,可以布設任意多個連接來表達與其他節(jié)點的多重關系,是深層語義結構的理想模型。
從深層語義結構(概念結構)到表層句法結構,需經歷一個重要的線性化過程,也稱序列化過程(Serialization),原本立體結構的概念關系轉變?yōu)榫性結構的詞項關系。例如:我用洗衣機把床單洗了。它的深層語義結構如圖2所示,存在這樣一些關系:一是"我"和"洗衣機"的使用被使用關系(句中已虛化為表方式的介詞"用");二是"洗衣機"和"床單"的洗滌被洗滌關系;三是"我"和"床單"的處置被處置關系;四是使用、洗滌、處置等行為與參照時間的關系(句中用助詞"了"表達);五是其他一些隱含關系,如"我"與"洗衣機""床單"的領屬、借用關系、"床單"清潔程度的變化關系,等等。這些關系通過立體網絡的多重鏈接加以表達,由于其關系表達十分充分,不需要額外的標記補充說明,因此深層語義結構只單純地包含實體概念和概念間的聯(lián)結。
語義結構由深層向表層轉變,無一例外地成為線性結構,這是受到語音物理、生理屬性制約的必然結果。語音在物理上表現為隨時間變化的物質震動,生理上表現為氣流對發(fā)音器官的持續(xù)沖擊,因此語音與時間維度是緊密貼合的。為了滿足時間維度的要求,深層語義結構必須將信息轉變?yōu)檫m合語音特性的線性結構,這是語言序列化過程的原動力。圖2的概念語義結構經過序列化,就成為下面的樣子:我-用-洗衣機-把-床單-洗-了。
我們注意到,原本由多維結構承載的復雜關系信息,在序列化過程中被極大地破壞了,一維線性序列中的節(jié)點在形式上只能維持與左右相鄰單位的極近關系,這與立體網絡的關系表達能力不是一個數量級。為了彌補這種缺失,各種語言都通過全民約定俗成的方式,來改善一維序列的關系表達,例如漢語約定為SVO語言,日語約定為SOV語言;漢語定中結構為形容詞+名詞的類型,泰語定中結構則為名詞+形容詞的類型。這樣,語序這一語法手段就正式出現在語言中,成為對語言線性化過程中損失的關系表達機制的彌補。其他各類語法手段的發(fā)生過程及動因也莫不如此。上例表層句子所增加的三個虛詞詞項"用""把""了"以及不占據時間軸的語序、語調、邏輯重音等,都是漢語中用于彌補關系表達能力的機制。
因此我們說,語法單位的產生有動因可循,它是受一維線性形式制約的多維關系表達機制,是言語序列化過程的必然結果。完善的語法手段可以勝任表達任何復雜的多維關系,但那只是理想狀態(tài),真實語言中語法手段的表達能力十分有限:首先是句子長度的限制,一個場景的表達往往需要多個句子協(xié)同完成,句子過長易產生詞項關系混亂;其次是語法歧義的存在,類似于"Flying plane can be dangerous"這樣的歧義句,可以理解為不同的深層語義結構,雖然這可以成為雙關修辭的產生機制,豐富了語言表達方式,但現有語法手段難以區(qū)分和表達全部可能的多維語義關系,卻也是不爭的事實。
我們回到詞類問題上,與其他語法手段一樣,詞性標簽賦予詞項的語法意義也是對線性化過程中損失的多維概念關系的補償。它可以表達這樣一些關系:實體-屬性關系 名詞-形容詞 行為-對象關系動詞-名詞實體-行為關系 名詞-動詞 狀態(tài)-行為關系副詞-動詞實體-數量關系 名詞-數詞 性質-實體關系形容詞-名詞行為-時間關系 動詞-助詞……上述概念關系只是示例,并不完整。
事實上,一旦對概念關系進行分類,就立即陷入了符號主義認知觀的泥沼,因為概念關系本質上是普遍聯(lián)系的、無限的,分類意味著切分,意味著有限化改寫,這顯然與聯(lián)結主義原則相悖。對于概念語義這樣的無限集,分類的作用僅限于使研究變得更有條理、更便于理解和記憶,但這是以破壞語義細節(jié)為代價的,而對于描述語義系統(tǒng)本身,分類絕不是最好的方法。如果能夠用其他手段(如百科知識網絡)完整表達概念語義關系,那么詞類劃分將不再是唯一的選擇。
【從認知心理學視角分析詞類劃分論文】相關文章:
從心理學視角分析黑澤明的《夢》「論文」06-20
從理論心理學的視角探究認知與身體的實證統(tǒng)計論文08-21
認知功能視角下的英漢語法隱喻研究分析論文06-20
基于心理學視角分析黑澤明的《夢》論文08-14
城鎮(zhèn)規(guī)劃分析論文04-27
認知心理學的論文04-11
話語分析的多個視角論文07-08
論文:出納崗位認知分析06-24