好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁(yè) > 知識(shí)庫(kù) > python jieba庫(kù)的基本使用

python jieba庫(kù)的基本使用

熱門(mén)標(biāo)簽:400電話 申請(qǐng) 條件 南京crm外呼系統(tǒng)排名 crm電銷(xiāo)機(jī)器人 賓館能在百度地圖標(biāo)注嗎 電銷(xiāo)機(jī)器人 金倫通信 鄭州智能外呼系統(tǒng)中心 汕頭電商外呼系統(tǒng)供應(yīng)商 云南地圖標(biāo)注 北京外呼電銷(xiāo)機(jī)器人招商

一、jieba庫(kù)概述

jieba是優(yōu)秀的中文分詞第三方庫(kù)

  • 中文文本需要通過(guò)分詞獲得單個(gè)的詞語(yǔ)
  • jieba是優(yōu)秀的中文分詞第三方庫(kù),需要額外安裝
  • jieba庫(kù)提供三種分詞模式,最簡(jiǎn)單只需要掌握一個(gè)函數(shù)

二、jieba庫(kù)安裝

pip install jieba

三、jieba分詞的原理

jieba分詞依靠中文詞庫(kù)

  • 利用一個(gè)中文詞庫(kù),確定漢字之間的關(guān)聯(lián)概率
  • 漢字間概率大的組成詞組,形成分詞結(jié)果

四、jieba分詞的3種模式

  • 精確模式:把文本精確地切分開(kāi),不存在冗余單詞(最常用)
  • 全模式:把文本中所有可能的詞語(yǔ)都掃描出來(lái),有冗余
  • 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分

五、jieba庫(kù)常用函數(shù)

函數(shù) 描述
jieba.lcut(s) 精確模式,返回一個(gè)列表類(lèi)型的分詞結(jié)果
jieba.lcut(s,cut_all=True) 全模式,返回一個(gè)列表類(lèi)型的分詞結(jié)果,存在冗余
jieba.lcut_for_search(s) 搜索引擎模式,返回一個(gè)列表類(lèi)型的分詞結(jié)果,存在冗余
jieba.lcut(s) 精確模式,返回一個(gè)列表類(lèi)型的分詞結(jié)果
jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut("中國(guó)是一個(gè)偉大的國(guó)家")
['中國(guó)', '是', '一個(gè)', '偉大', '的', '國(guó)家']

>>> jieba.lcut("中國(guó)是一個(gè)偉大的國(guó)家", cut_all=True)
['中國(guó)', '國(guó)是', '一個(gè)', '偉大', '的', '國(guó)家']

>>> jieba.lcut_for_search("中華人民共和國(guó)是偉大的")
['中華', '華人', '人民', '共和', '共和國(guó)', '中華人民共和國(guó)', '是', '偉大', '的']

六、文本詞頻示例

問(wèn)題分析

  • 英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

  • 中文文本: 《三國(guó)演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText():
 # 打開(kāi) hamlet.txt 這個(gè)文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小寫(xiě)對(duì)詞頻統(tǒng)計(jì)的干擾,將所有單詞轉(zhuǎn)換為小寫(xiě)
 txt = txt.lower()
 # 將文中出現(xiàn)的所有特殊字符替換為空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一個(gè)所以后單詞都是小寫(xiě)的,單詞間以空格間隔的文本
 return txt

hamletTxt = getText()
# split() 默認(rèn)使用空格作為分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據(jù)單詞出現(xiàn)的次數(shù)進(jìn)行排序,其中使用了 lambda 函數(shù)。更多解釋請(qǐng)看:
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫(kù)來(lái)統(tǒng)計(jì)《三國(guó)演義》中任務(wù)出場(chǎng)的次數(shù):

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運(yùn)行結(jié)果:

曹操  953
孔明  836
將軍  772
卻說(shuō)  656
玄德  585
關(guān)公  510
丞相  491
二人  469
不可  440
荊州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
張飛  358

我們可以看到得出的結(jié)果與我們想象的有些差異,比如

  • “卻說(shuō)”、“二人”等與人名無(wú)關(guān)
  • “諸葛亮”、“孔明”都是同一個(gè)人
  • “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對(duì)上面代碼進(jìn)行優(yōu)化,在詞頻統(tǒng)計(jì)的基礎(chǔ)上,面向問(wèn)題改造我們的程序。

下面是《三國(guó)演義》人物數(shù)量統(tǒng)計(jì)代碼的升級(jí)版,升級(jí)版中對(duì)于某些確定不是人名的詞,即使做了詞頻統(tǒng)計(jì),也要將它刪除掉。使用寄一個(gè)集合excludes來(lái)接收一些確定不是人名但是又排序比較靠前的單詞列進(jìn)去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說(shuō)","荊州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "諸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "關(guān)公" or word == "云長(zhǎng)":
 rword == "關(guān)羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "劉備"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運(yùn)行結(jié)果:

曹操  963
孔明  847
張飛  366
商議  359
如何  352
主公  340
軍士  320
呂布  303
左右  298
軍馬  297
趙云  283
劉備  282
引兵  279
次日  278
大喜  274

可以看出還是有像“商議”、“如何”等不是人物的詞出現(xiàn)在統(tǒng)計(jì)結(jié)果,我們將這些詞加入到 excludes 中,多次運(yùn)行程序后最后得到《三國(guó)演義》任務(wù)出場(chǎng)順序前20:

七、文本詞頻統(tǒng)計(jì)問(wèn)題舉一反三

應(yīng)用問(wèn)題擴(kuò)展

  • 《紅樓夢(mèng)》、《西游記》、《水滸傳》...等名著都可以統(tǒng)計(jì)它的任務(wù)出場(chǎng)次數(shù)
  • 政府工作報(bào)告、科研論文、新聞報(bào)道...中出現(xiàn)的大量的詞頻進(jìn)行分析,進(jìn)而找到每篇文章的重點(diǎn)內(nèi)容
  • 進(jìn)一步,對(duì)文本的詞語(yǔ)或詞匯繪制成詞云,使其展示的效果更加直觀

以上內(nèi)容資料均來(lái)源于中國(guó)大學(xué)MOOC網(wǎng)-北京理工大學(xué)Python語(yǔ)言程序設(shè)計(jì)課程
課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫(kù)的基本使用的詳細(xì)內(nèi)容,更多關(guān)于python jieba庫(kù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • Python jieba庫(kù)分詞模式實(shí)例用法
  • Python jieba庫(kù)用法及實(shí)例解析
  • Python基于jieba庫(kù)進(jìn)行簡(jiǎn)單分詞及詞云功能實(shí)現(xiàn)方法
  • Python中jieba庫(kù)的使用方法

標(biāo)簽:錫林郭勒盟 梅州 文山 石家莊 西寧 懷化 浙江 昆明

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《python jieba庫(kù)的基本使用》,本文關(guān)鍵詞  python,jieba,庫(kù),的,基本,使用,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《python jieba庫(kù)的基本使用》相關(guān)的同類(lèi)信息!
  • 本頁(yè)收集關(guān)于python jieba庫(kù)的基本使用的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 无遮无挡视频| 秋霞AV亚洲一区二区三| 亲嘴扒胸摸屁股激烈网站| 久久香蕉国产线| xxxxxxxxxhd| 放荡的女教师| 尤物国产在线精品三区| 91的麻豆精品国产自产的推荐理由| 看女生的逼| 啪啪精品| 小sao货水真多ji巴cao视频| 纯肉高H啪在线观看视频| 跟鬼做的肉肉H文| 骚晶儿| 裸体无码婬片A片AAA毛片裸体| 我不是潘金莲免费观看| 国产女人18毛片水18精品| 永久免费的啪啪免费的网址| 狠狠色丁香婷综合久久| 另类异族videosex太狠了| 受不了?太大太粗太满了| 国产精品蜜臀AV无码播放| 182福利tv| ass亚洲**毛茸茸pics| 国产精密秘?入口麻豆| 激情婷婷五月狠狠色综AV| 嗯嗯啊啊肉文| 色成人亚洲| 99国产精品白浆在线观看免费| a4yy影院| 小雪校花的好大的奶好爽| 国模徐莹大尺度掰阴| 我解开了她的乳罩慢慢揉| 亚洲激情偷拍| 乳女教师3~婬辱の动| 日本污污视频在线观看| 人妻淑芬的沉沦1~46| 国产片翁熄系列乱在线视频| 精品成a人无码亚洲成a小说| 国产精品久久久久久亚洲伦理| 在线看片黄|