在個人研究上,有時候會有很多pdf文件需要搜尋,且不知道是在哪個pdf文件時,就很需要一個pdf全文index搜尋的程式
有了需求,就試用一下gemini,看看gemini能否寫一個python的程式來達到我的需求
於是下完一些prompt與修正後,就有了以下成品
環境、安裝與使用方式如下:
--environment-
.windows 11
.python --version , Python 3.12.4
//install whoosh and pypdf
pip install whoosh pypdf
//run application
python pdf_search_app.py
COLAB程式碼連結
https://colab.research.google.com/drive/1dJcixfFuSG6VitvNQ3wQ836OMVjIqvYx
程式運行後,會有一下介面,先選擇 pdf文件目錄
之後按下 start indexing做索引檔 (索引檔會在 .py程式檔案的目錄下的index_data 目錄 )
索引檔案建立完畢後,就可以在 search documents下面輸入 keyword 按下 search
下方就會出現包含此關鍵字的搜尋結果
如果想要進行下一次的搜尋,可以按下clear按鈕,就會清除搜尋結果,並進行下一次的搜尋
以上做紀錄,並與大家分享。
文章標籤
全站熱搜

