詢問作業解答中regex的寫法背後意義 ? 前面的教學好像沒看到這個過濾方式
2020/11/26 上午 01:02
基礎語言模型:N-Gram
Kent
觀看數:43
回答數:2
收藏數:0
看了答案中的regex...想請問這個寫法應該怎麼解讀??? [\u4E00-\u9FA50-9]
回答列表
-
2020/11/26 上午 11:17張維元 (WeiYuan)贊同數:1不贊同數:0留言數:1
嗨,你好
[\u4e00-\u9fa5] 是指所有的中文,這是 Unicode 的編碼。可以參考這一篇:https://lucrelin.blogspot.com/2016/11/unicodeu4e00-u9fa5.html
嗨,你好,我是維元,持續在不同的平台發表對 #資料科學、 #網頁開發 或 #軟體職涯 相關的文章。如果對於內文有疑問都歡迎與我們進一步的交流,都可以追蹤我的 Facebook 或 技術部落格 ,也會不定時的舉辦分享活動,一起來玩玩吧 ヽ(●´∀`●)ノ
-
2020/11/26 下午 11:42劉冠宏贊同數:1不贊同數:0留言數:1
Hello 您好, 在作業中這裡的步驟主要在做資料清洗,目的是要將文本只保留英文數字與中文,其他的去除,而[\u4E00-\u9FA50-9]的正規表達式就是用來配對中文的(為中文的unicode表示法)。 ![Screenshot 2020-11-26 at 11.40.07 PM.png](http://kwassistfile.cupoy.com/0000017605363CC5000000036375706F795F72656C65617365414E53/1606277312816/large)