logo
Loading...

請問 WordPiece 有應用在中文上面嗎? - Cupoy

中文字不像英文這類字母文字 (a-z) 可以拆解和組合實用性是不是沒那好

請問 WordPiece 有應用在中文上面嗎?

2020/11/26 下午 11:15
詞幹/詞條提取:Stemming and Lemmatization
Vila Lin
觀看數:117
回答數:2
收藏數:0

中文字不像英文這類字母文字 (a-z) 可以拆解和組合 實用性是不是沒那好

回答列表

  • 2020/12/02 上午 09:57
    楊哲寧
    贊同數:1
    不贊同數:0
    留言數:0

    我們可參考Bert 團隊給的解答:https://github.com/google-research/bert/blob/master/multilingual.md#tokenization > Because Chinese (and Japanese Kanji and Korean Hanja) does not have whitespace characters, we add spaces around every character in the CJK Unicode range before applying WordPiece. This means that Chinese is effectively character-tokenized. Note that the CJK Unicode block only includes Chinese-origin characters and does not include Hangul Korean or Katakana/Hiragana Japanese, which are tokenized with whitespace+WordPiece like all other languages. WordPiece 在中文或者是日文Kanji、韓文Hanja上,主要是 character-tokenized,因此最小單位就是一個 character。

  • 2020/12/02 下午 02:34
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:0

    嗨,你好
    中文的話應該可以搭配斷詞作使用,可以參考這一篇路落格:https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤我的 Facebook技術部落格 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ