口袋國會 投票紀錄資料 常見錯誤

"余 天" #余天
"曾銘宗 謝衣鳯 李德維 江啟臣 李貴敏"
#'曾銘宗', '謝衣鳯', '李德維', '江啟臣', '李貴敏'
"萬美" #萬美玲
"伍麗華 Saidhai˙Tahovecahe"
"伍麗華Saidhai7Tahovecahe"
"伍麗華   Saidhai Tahovecahe"
"王定孙" #孙 >> 宇
  1. 將原始資料的名字 進行標準化 除去中文以外的所有character(包含空白)

  2. 進行嚴格正規表示式匹配 (需完全正確才計入

    "王定宇" #正確匹配
    "王定孙" #名字錯誤 匹配不到 保留原始字串
    
    "曾銘宗 謝衣鳯 李德維 江啟臣 李貴敏"
    '曾銘宗', '謝衣鳯', '李德維', '江啟臣', '李貴敏'
    #正確匹配 進行拆分
    
    "曾銘宗 謝 鳯 李德維 江啟臣 李貴敏"
    '曾銘宗', '李德維', '江啟臣', '李貴敏' 
    #名字缺字 無法全部正確匹配 將原始字串保留 防止資料丟失(謝 鳯)
    

專案架構

pocketCongress_data/
│   
├── 主要功能
│   ├── pocketCongress_crawler.py  # 爬取口袋國會議員投票紀錄
│   ├── data_cleaning.py           # 將資料進行清洗
│   ├── generate_index.py          # 將資料以議員名稱建立索引檔
│   ├── index_json_check.py        # 檢查索引檔無法正確匹配的名稱 (暫時檔案)
│   ├── search_tool.py             # 搜尋工具 以議員名稱或議案名稱搜尋
│   └── index.json                 # generate_index.py產生的檔案
│   
└── 資料目錄
    ├── raw_data/                  # 口袋國會爬取下來的原始資料
    ├── official_names/            # 歷屆議員清單 用於正則式匹配
    └── log/                       # 原始資料的修改紀錄