電力中央研究所 報告書(電力中央研究所報告)
報告書データベース 詳細情報
報告書番号
R02008
タイトル(和文)
最新機械学習を用いた効率的な文書検索手法の開発
タイトル(英文)
An Efficient Method for Interactive Document Retrieval -Improvement of Relevance Feedback for Document Retrieval using Support Vector Machine
概要 (図表や脚注は「報告書全文」に掲載しております)
情報検索における検索精度の効率的な向上のため,サポートベクターマシンに基づく,能動学習による適合フィードバック手法を開発した.本手法ではユーザの評価した文書に基づき,ユーザに関係する文書と関係しない文書とを分ける分類面を生成し,その分類面からの距離によってユーザの欲しい文書をランク付けする.文書検索に関する国際会議Text Retrieval Conference で広く使用されている英字新聞記事(The Los Angels Times, 約13万文書,1文書中の平均単語数526語)を用いた実験において,その有効性を検証した.
概要 (英文)
We investigate the following data mining problem from the document retrieval: From a large data set of documents, we need to find documents that relate to human interest. In the interactive document retrieval, a user checks or evaluates the retrieval system's result and the system re-retrieves documents using this user's evaluation to find documentsthat truly relate to user's interest. This procedure have to be made iteratively. The user and system want to make these iterations as few as possible to find documents that relate to user's interest. In each iteration a comparatively small batch of documents is evaluated for relating to the user's interesting. We apply an active learning technique based on Support Vector Machine for evaluating successive batches, which is called relevance feedback. The performance of our method is compared with that of the conventional method, which is called Rocchio-based method. Finally, we present our proposed approach is much more useful than the conventional approach for document retrieval with relevance feedback experimentally.
報告書年度
2002
発行年月
2003/03
報告者
担当 | 氏名 | 所属 |
---|---|---|
主 |
小野田 崇 |
情報研究所 |
共 |
村田 博士 |
情報研究所 |
共 |
山田 誠二 |
国立情報学研究所 知能システム研究系 |
キーワード
和文 | 英文 |
---|---|
情報検索 | Information Retrieval |
適合フィードバック | Relevance Feedback |
サポートベクターマシン | Support Vector Machine |
イントラネット | Intranet |
インターネット | Internet |