電力中央研究所 報告書(電力中央研究所報告)
報告書データベース 詳細情報
報告書番号
R01014
タイトル(和文)
データマイニングのための適切なデータ項目獲得手法
タイトル(英文)
Acquisition Method of Effective Attributes for Data-Mining
概要 (図表や脚注は「報告書全文」に掲載しております)
企業内の大規模データベースから知識を抽出する技術であるデータマイニングは企業にとって必要不可欠なツールとなりつつある。しかし現有のデータのみでは有効な知識が発見できない場合がある。この時、新しい調査を行ったり、外部データベースを購入するなどして、知識の抽出に役立つ情報を得る必要がある。そこで知識の抽出のために効果的なデータ項目の同定を支援する新手法「拡張三つ組み法」を提案した。提案手法では、サポートベクトルマシンの解に基づき、システムが知識の改善に重要な正例と負例の組みを同定し、分析者が同定された正負例に基づき追加データ項目を選択する。事例の選択と提示事例に基づくデータ項目選択が判別知識の改善を最大化することを示した。実際の判別問題に対する実験において、8事例のみに基づいて選択された追加データ項目が知識の改善度合いの点で高い順位(約100データ項目中の上位20位以内)となることを示した。
概要 (英文)
Data-mining, the technology to extract knowledge from large database within a corporation, is an essential tool for today's enterprise. However, there are several cases that it cannot find out useful knowledge based on the current database which the company owns. In these cases, it is necessary to acquire new information (attributes) useful for the knowledge extraction by conducting new surveys, or purchasing an external database and so on. We developed a new method named `extended triad method', which helps to identify the effective attributes for useful knowledge extraction. In the method, based on the solution of the support vector machine (SVM), the system identifies the important pairs of a set of positive samples and a set of negative ones for the knowledge improvement and the analyst finds an attribute which has the same value in identified positive (or negative) samples but different across the positive/negative samples. It is an extension of the triad elicitation method, which is useful to elicit exact knowledge from human. We proved the selection of samples and the answered attribute can maximize the improvement of the objective function of SVM under a certain condition. We also conduct an experiment for an actual discrimination problem. In the experiment, the selected attributes based on the identified only 8 samples, are highly ranked concerning the degree of improvement of knowledge (usually within top 20 attributes in about 100 attributes).
報告書年度
2001
発行年月
2002/08
報告者
担当 | 氏名 | 所属 |
---|---|---|
主 |
三浦 輝久 |
情報研究所 |
共 |
篠原 靖志 |
情報研究所 |
キーワード
和文 | 英文 |
---|---|
データマイニング | Data Mining |
知識マネジメント | Knowledge Managemnet |
分散データベース | Distributed database |
機械学習 | Machine Learning |
情報検索 | Information Retrieval |