口袋國會 投票紀錄資料 常見錯誤
"余 天" #余天
"曾銘宗 謝衣鳯 李德維 江啟臣 李貴敏"
#'曾銘宗', '謝衣鳯', '李德維', '江啟臣', '李貴敏'
"萬美" #萬美玲
"伍麗華 Saidhai˙Tahovecahe"
"伍麗華Saidhai7Tahovecahe"
"伍麗華 Saidhai Tahovecahe"
"王定孙" #孙 >> 宇
將原始資料的名字 進行標準化 除去中文以外的所有character(包含空白)
進行嚴格正規表示式匹配 (需完全正確才計入
"王定宇" #正確匹配
"王定孙" #名字錯誤 匹配不到 保留原始字串
"曾銘宗 謝衣鳯 李德維 江啟臣 李貴敏"
'曾銘宗', '謝衣鳯', '李德維', '江啟臣', '李貴敏'
#正確匹配 進行拆分
"曾銘宗 謝 鳯 李德維 江啟臣 李貴敏"
'曾銘宗', '李德維', '江啟臣', '李貴敏'
#名字缺字 無法全部正確匹配 將原始字串保留 防止資料丟失(謝 鳯)
pocketCongress_data/
│
├── 主要功能
│ ├── pocketCongress_crawler.py # 爬取口袋國會議員投票紀錄
│ ├── data_cleaning.py # 將資料進行清洗
│ ├── generate_index.py # 將資料以議員名稱建立索引檔
│ ├── index_json_check.py # 檢查索引檔無法正確匹配的名稱 (暫時檔案)
│ ├── search_tool.py # 搜尋工具 以議員名稱或議案名稱搜尋
│ └── index.json # generate_index.py產生的檔案
│
└── 資料目錄
├── raw_data/ # 口袋國會爬取下來的原始資料
├── official_names/ # 歷屆議員清單 用於正則式匹配
└── log/ # 原始資料的修改紀錄