日前,最高檢印發《檢察大數據行動指南(2017— 2020 年)》,通過一中心、四體系的建設方案實現從試點到全面推廣的 4 年規劃,打造數據化、科學化、智能化的“智慧檢務”。作為堅守社會底線的檢察機關,應對數據化、信息化的機遇,解放司法一線辦案人員的生產力、提升司法質量的時代要求面前,做出了這樣的承諾。
一、司法大數據應當如何定義
對于司法大數據的分類可依差別尺度,如按照司法機關的差別分為法院數據和檢察數據,或者按照主體的差別分為案件數據和辦理數據,甚至還可以按照差別的業務條線進行詳細的劃分。這里,我們更想強調的是聚焦在“司法”自己,以辦案為圓心,定義分布在辦案周圍的各種數據。包孕以下幾種:
1.案件自己的數據
這是最為常見、也是最能為人理解的司法大數據種類。以刑事公訴案件為例,案件從立案、偵查、審查批捕、審查起訴到最后審判、執行,整個過程中,物理形態從證據材料到電子卷宗、系統數據、法律文書等等,但其中涉及的數據種類無外乎案件實體數據,如犯罪人主體身份數據、犯罪行為數據、犯罪結果數據等,以及按照案件流程差別產生的案件程序數據,即在辦案過程中產生、沉淀的案件數據,如訴訟經過、偵查監督等。
數據存在的形式剛開始可能是一份份筆錄、證言、書證、物證,最終經過辦案人員整理,形成終結性的辦案文書,載明上述數據的內容和明細,同時將相關數據進行結構化處理,輸入或者上傳至辦案系統,從而在實體和線上都留存了相應數據。實體數據多以文本的形式表現;線上數據,尤其是檢察院統一案件辦理系統、法院智能辦案輔助系統的廣泛適用,更多的表示為結構化的字段以及電子文本。
當這些案件數據沉淀下來、匯集起來的時候,,又可以產生趨勢性或者預測性的司法判斷,以案例集、數據陳訴等形式存儲,為當下以及未來的案件提供數據支持。
2.辦案主體相關數據
這方面的數據往往不被司法一線人員重視,因為他們作為數據的使用者,往往忽視了本身也是數據的生產者。但在員額改革的今天,主體相關數據就顯得尤為重要。例如統計年鑒中經常會涉及的政法事業編以及現在所提及的員額法官、檢察官數量,都是辦案主體總體上量的規模統計,但對于每名主體質的評價,也應該是司法大數據應該涵蓋的范圍。
如可以按照每名檢察官的結案數量、結案率、結案周期、卷宗冊數、案由類型、文書說理占比(起訴書中“本院認為部分”字數占全部起訴書字數的比例)、掩護力度(起訴書與判決書比較的偏離程度)、案件平均開庭次數、論文陳訴、案件第三方評價等多個維度對每個檢察官的能力情況進行立體展示,甚至可以通過團隊平均值來計算每名檢察官的偏離度情況,以更好的識別優秀辦案能手,做到能者就列,真正發揮員額制的作用。

3.辦案相關物質保障數據
與上面兩個數據比擬,這項數據更不容易與司法大數據進行關聯,但所有的辦案行為都需要借助必然的物質基礎,好比提訊犯罪嫌疑人,因為看守所一般都離檢察機關辦案場所較遠,來回的在途時間以及車輛保障就是確保案件能否定時、高效完成的重要因素,甚至有的單位車輛不足的情況下,會采取每周發車一次的做法來變相限制辦案的及時性,在移送法院審查起訴、退回增補偵查等過程中也會遇到類似問題,由于案管部門人力、物力保障不足,會與辦案部門口頭約定每周幾次的送案時間,這也導致了辦案期限的報答延長。
由此,也需要用科學數據或者技術的方法來化解這些報答設限,好比可以通過遠程提訊的方式解決在途的問題,通過電子卷宗傳遞的方式解決流程銜接的問題,通過對司法機關整體物質保障情況進行梳理,建立動態、實時的人員、車輛調配體系,切實保障一線辦案部門的需求。
4.上述幾種司法大數據進行彼此關聯、激活,可以產生更大的生產力
既往大數據強調的是以數據為核心,現在隨著區塊鏈技術的成熟,數據應用強調是以報答核心,打破傳統數據條狀化所帶來的單維相關率問題,在數據自由流動的前提下,以司法主體、組織等差別主體為起點,通過歷史數據與實時數據的融合、線上數據與線下數據的融合、文本數據與結構化數據的融合,尋找辦案之間、辦案與非辦案行為之間的關聯關系,通過每一個數據元的激活和釋放能力,讓司法系統乃至司法系統之外的每一個人都按照本身的自由聯想和思維邏輯表達想法,彼此啟發,以達到新思維的碰撞、創新。
二、檢察機關的司法大數據應用
1..檢察機關的地位決定了其促進全訴訟流程數據尺度化的使命