好湿?好紧?好多水好爽自慰,久久久噜久噜久久综合,成人做爰A片免费看黄冈,机机对机机30分钟无遮挡

主頁 > 知識庫 > python 簡單的股票基金爬蟲

python 簡單的股票基金爬蟲

熱門標簽:孝感營銷電話機器人效果怎么樣 地圖標注自己和別人標注區別 南陽打電話機器人 打電話機器人營銷 ai電銷機器人的優勢 海外網吧地圖標注注冊 騰訊地圖標注沒法顯示 聊城語音外呼系統 商家地圖標注海報

項目地址

https://github.com/aliyoge/fund_crawler_py

所用到的技術

  1. IP代理池
  2. 多線程
  3. 爬蟲
  4. sql

開始編寫爬蟲

1.首先,開始分析天天基金網的一些數據。經過抓包分析,可知: ./fundcode_search.js包含所有基金代碼的數據。

2.根據基金代碼,訪問地址: fundgz.1234567.com.cn/js/ + 基金代碼 + .js可以獲取基金實時凈值和估值信息。

3.根據基金代碼,訪問地址: fundf10.eastmoney.com/FundArchivesDatas.aspx?type=jjcccode= + 基金代碼 + topline=10year=2021month=3可以獲取第一季度該基金所持倉的股票。

4.由于這些地址具有反爬機制,多次訪問將會失敗的情況。所以需要搭建IP代理池,用于反爬。搭建很簡單,只需要將proxy_pool這個項目跑起來就行了。

# 通過這個方法就能獲取代理
def get_proxy():
    return requests.get("http://127.0.0.1:5010/get/").json()

5.搭建完IP代理池后,我們開始著手多線程爬取數據的工作。使用多線程,需要考慮到數據的讀寫順序問題。這里使用python中的隊列queue存儲基金代碼,不同線程分別從這個queue中獲取基金代碼,并訪問指定基金的數據。因為queue的讀取和寫入是阻塞的,所以可確保該過程不會出現讀取重復和讀取丟失基金代碼的情況。

# 獲取所有基金代碼
fund_code_list = get_fund_code()
fund_len = len(fund_code_list)

# 創建一個隊列
fund_code_queue = queue.Queue(fund_len)
# 寫入基金代碼數據到隊列
for i in range(fund_len):
    # fund_code_list[i]也是list類型,其中該list中的第0個元素存放基金代碼
    fund_code_queue.put(fund_code_list[i][0])

6.現在開始編寫獲取所有基金的代碼。

# 獲取所有基金代碼
def get_fund_code():
    ...

    # 訪問網頁接口
    req = requests.get("http://fund.eastmoney.com/js/fundcode_search.js",
                    timeout=5,
                    headers=header)

    # 解析出基金代碼存入list中
    ...

    return fund_code_list

7.接下來是從隊列中取出基金代碼,同時獲取基金詳情和基金持倉的股票。

# 當隊列不為空時
while not fund_code_queue.empty():

    # 從隊列讀取一個基金代碼
    # 讀取是阻塞操作
    fund_code = fund_code_queue.get()

    ...

    try:
        # 使用該基金代碼進行基金詳情和股票持倉請求
        ...

8.獲取基金詳情

# 使用代理訪問
req = requests.get(
    "http://fundgz.1234567.com.cn/js/" + str(fund_code) + ".js",
    proxies={"http": "http://{}".format(proxy)},
    timeout=3,
    headers=header,
)
# 解析返回數據
...

9.獲取持倉股票信息

# 獲取股票投資明細
req = requests.get(
    "http://fundf10.eastmoney.com/FundArchivesDatas.aspx?type=jjcccode="
    + str(fund_code) + "topline=10year=2021month=3",
    proxies={"http": "http://{}".format(proxy)},
    timeout=3,
    headers=header,
)
# 解析返回數據
...

10.準備一個數據庫,用于存儲數據和對數據進行篩選分析。這里推薦一個方便的云數據庫,一鍵創建,一鍵查詢,十分方便,而且是免費的哦。前往MemFireDB注冊一個賬號就能使用。注冊邀請碼:6mxJl6、6mYjGY;

11.創建好數據庫后,點擊連接信息填入代碼中,用于連接數據庫。

# 初始化數據庫連接:
engine = create_engine(
'postgresql+psycopg2://username:password@ip:5433/dbname')

12.將數據寫入數據庫中。

with get_session() as s:
    # create fund
    ...

    if (create):
        s.add(fund)

    s.commit()

13.到這里,大部分工作已經完成了,我們在main函數中開啟線程,開始爬取。

# 在一定范圍內,線程數越多,速度越快
for i in range(50):
    t = threading.Thread(target=get_fund_data, name="LoopThread" + str(i))
    t.start()

14.等到爬蟲運行完成之后,我們打開MemFireDB,點擊對應數據庫的SQL查詢按鈕,就可以查看我們爬取的數據。哇!我們獲取到了6432條數據。

15.接下來讓我們來看看這些基金最喜歡買哪些股票吧。輸入SQL語句select poscode, posname, count(*) as count, cast(sum(poscost) as int) from fund group by poscode, posname order by count desc limit 10;

它就是茅臺!

以上就是python 簡單的股票基金爬蟲的詳細內容,更多關于python 股票基金爬蟲的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python批量獲取基金數據的方法步驟
  • Python獲取基金網站網頁內容、使用BeautifulSoup庫分析html操作示例
  • Python多進程方式抓取基金網站內容的方法分析
  • Python學習筆記之抓取某只基金歷史凈值數據實戰案例
  • 利用python實時刷新基金估值(摸魚小工具)

標簽:揚州 六盤水 牡丹江 南寧 迪慶 聊城 楊凌 撫州

巨人網絡通訊聲明:本文標題《python 簡單的股票基金爬蟲》,本文關鍵詞  python,簡單,的,股票,基金,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python 簡單的股票基金爬蟲》相關的同類信息!
  • 本頁收集關于python 簡單的股票基金爬蟲的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 精品国产成人综合久久小说| 亚洲精品乱爱久久爽| 成品短视频软件大全下载手机版| 黄色激情视频在线观看| yy111111色少妇影院在线观看| 男人伸进女人下面桶| x8x8在线永久免费观看| 陈巴尔虎旗| 爱搞视频在线播放| 9999啪啪片AV一区二区三区| 国精产品一二三区区污污aaal| 国产高清视频a在线大全| couo福利姬图库| 日本妻子在线| 成人银杏电影在线观看视频| ?禁漫H漫画网站免费观看| 国产60部真实乱磁力下载| 91香蕉国产在线观看人员| bbbxxx| 精品Av天堂a√在线视频| 理论片午夜伦夜理片2018| jizz日本护士| 秋霞电影午夜| 无码人妻丰满熟妇精品区东京直播| 短篇强校花高h系列小说| 他含着我的奶边摸边做| 搞机30分钟视频| 女人荫蒂被添全过程| 91精品国产91久久综合桃花| 国产精品-XNXX.COM| 男主当着女主的面要了别的女人| 天堂资源在线观看| 深夜a级毛片| 50岁老熟女超大尺度人体摄影| 性欧美极品| 小莹的乳液汁无删减全文| 年轻的老师4HD中字| 亚洲精品一区国产精品| 韩国激情电影高清完整版| 人体大胆a级照片| 爱爱免费视频网站|