在個人研究上,有時候會有很多pdf文件需要搜尋,且不知道是在哪個pdf文件時,就很需要一個pdf全文index搜尋的程式

有了需求,就試用一下gemini,看看gemini能否寫一個python的程式來達到我的需求

於是下完一些prompt與修正後,就有了以下成品

環境、安裝與使用方式如下:

--environment-
.windows 11
.python --version , Python 3.12.4
//install whoosh and pypdf
pip install whoosh pypdf
//run application
python pdf_search_app.py


COLAB程式碼連結
https://colab.research.google.com/drive/1dJcixfFuSG6VitvNQ3wQ836OMVjIqvYx


程式運行後,會有一下介面,先選擇 pdf文件目錄



之後按下 start indexing做索引檔 (索引檔會在 .py程式檔案的目錄下的index_data 目錄 )


索引檔案建立完畢後,就可以在 search documents下面輸入 keyword  按下 search

下方就會出現包含此關鍵字的搜尋結果

如果想要進行下一次的搜尋,可以按下clear按鈕,就會清除搜尋結果,並進行下一次的搜尋



以上做紀錄,並與大家分享。

文章標籤
全站熱搜
創作者介紹
創作者 CuteParrot 的頭像
CuteParrot

馴龍窩

CuteParrot 發表在 痞客邦 留言(0) 人氣(23)