logo
Loading...

prepocess_line 的結果與解答不同? - Cupoy

我在實作 prepocess_line 時,產生的 長度與解答的 prepocess_line 不同...

prepocess_line 的結果與解答不同?

2021/02/01 下午 03:01
自製中文選字系統:基礎篇
Chi-Kang Su
觀看數:26
回答數:2
收藏數:0

我在實作 prepocess_line 時,產生的 長度與解答的 prepocess_line 不同,以下是我的 code ```python def prepocess_line(line): # 僅僅挑出中文字元,並且斷開不連續的中文字 # YOUR CODE HERE segments = re.sub(u'[^\u4E00-\u9FCC]+', ' ', line).split() # END YOUR CODE return segments ``` 而解答的是 ```python def prepocess_line(line): # 僅僅挑出中文字元,並且斷開不連續的中文字 # YOUR CODE HERE chinese_pattern = r'[\u4E00-\u9FFF]+' segments = re.findall(chinese_pattern, line, flags=re.UNICODE) # END YOUR CODE return segments ``` 實際比對後,我與解答在某些結果分詞不同,經過比對後,我與解答在某些結果分詞不同,如 index 18969: 我的前後結果: > '年', '月', '日正式獲得認可', '中文分別譯作鉨', '鏌', **'和',** '所有版本的元素週期表都只包含化學元素', '而不包含混合物', '化合物或亞原子粒子', '每個元素的各個同位素都在同一格中表示' 解答的前後結果: > '年', '月', '日正式獲得認可', '中文分別譯作鉨', '鏌', **'鿬和鿫',** '所有版本的元素週期表都只包含化學元素', '而不包含混合物', '化合物或亞原子粒子', '每個元素的各個同位素都在同一格中表示' 又或者如 index 19021: 我的前後結果: > '當中', '個元素存在於自然界中', '個爲原生核素', '另有', '個元素只出現在原生元素的衰變鏈裏', **'從鎄到鿫的所有元素雖然不在宇宙中自然產生',** '但是由於經過人工合成', '現已全被', '承認', '所有鎄' 解答的前後結果: > '當中', '個元素存在於自然界中', '個爲原生核素', '另有', '個元素只出現在原生元素的衰變鏈裏', **'從鎄到', '的所有元素雖然不在宇宙中自然產生',** '但是由於經過人工合成', '現已全被', '承認' 想請問為什麼會有這種結果上的差異呢?

回答列表

  • 2021/02/01 下午 05:13
    張維元 (WeiYuan)
    贊同數:1
    不贊同數:0
    留言數:2

    嗨,你好
    你是用 u'[^\u4E00-\u9FCC]+' 解答是用 r'[\u4E00-\u9FFF]+' ,這邊略有不同?你知道 u 跟 r 的差別嗎?還有你用 9FCC 解答用 9FFF ?

    嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤我的 Facebook技術部落格 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ 以下分享一些我近期發表跟資料科學有關的文章,歡迎大家持續追蹤: ■ 資料分析工具那麼多,該怎麼選? 🛠️
    真.資料團隊與分工
    觀察資料的 N 件事 🔖
    資料前處理必須要做的事 - 資料清理與型態調整

  • 2021/02/10 下午 09:52
    YC
    贊同數:0
    不贊同數:0
    留言數:0

    很抱歉講義有錯誤,目前講義的錯誤已經修正了。