総説・解説記事(Misc) - 関 和広
-
岡村 直人, 関 和広, 上原 邦昭
研究報告自然言語処理(NL) 2011 ( 9 ) 1 - 7 2011年5月
感染症サーベイランスには,大別して医療機関の情報を利用した方法とWeb情報を利用した方法がある.Web情報はリアルタイム性が高く,感染症の蔓延防止を目的とする感染症サーベイランスに有用である可能性がある.本論文では,Web情報,特にソーシャルメディアを用いた感染症サーベイランスの第一歩として,インフルエンザを対象にTwitterの有効性を実験的に調査する.Twitterに投稿されたインフルエンザの症状を含むtweetの分類を行い,実際のインフルエンザ報告件数との関係を分析する.There are roughly two types of syndromic surveillance; One uses information from medical institutions and another gathers information from the Web. The information used by the latter, such as consumer generated media (CGM), may reflect more real-time events and thus may be more useful for syndromic surveillance since detecting early infection of a target syndrome prevents wider spread of the syndrome. This paper investigates the usefulness of CGM, specifically microblogs, for syndromic surveillance focusing on influenza. We collect a number of microblog posts (tweets) which include symptoms of influenza and study their size and transition against those of reported true influenza cases.
-
吉川幹人, 関和広, 上原邦昭
第73回全国大会講演論文集 2011 ( 1 ) 403 - 404 2011年3月
我々が情報検索を行う際,一度の検索では目的の情報を発見できず,検索質問を修正しながら連続して検索を行うことがある.このような「Query Chain」を利用することで,検索質問と(非)適合文書とを関連づけた学習データを効率的に自動生成する手法が提案されている.しかし,Query Chainによって作成した訓練事例を用いた検索は,学習データに出現しない検索質問に対してはうまく機能せず,一般的なウェブ検索等に用いることは困難であった.本研究では,検索質問の類似性を考慮して訓練事例を確率的にサンプリングすることにより,この問題の解決を試みる.また,より高品質・多量の訓練事例を獲得するためにQuery Chainの拡張を行なう.さらに,実データを用いた評価実験によって提案手法の有効性を検証する.
-
宮西 大樹, 関 和広, 上原 邦昭
研究報告数理モデル化と問題解決(MPS) 2011 ( 3 ) 1 - 8 2011年2月
本論文では,リンク予測の問題を解くことで,ノードの順位予測を行うモデルを提案し,共著ネットワークから,将来的に重要または影響力を持つ著者 (有望エンティティ) を同定する.従来では,ある時点における著者をノード,著者同士の共著関係をエッジとした共著ネットワークから,構造的な特徴を基に重要度や影響力の大きな著者の同定を行ってきた.しかし,著者同士の関係は年を追うごとに変化しており,著者の最新の重要度や影響力を把握するためには,現時点における著者間の関係を見るだけでは不十分である.そこで,本論文では,時間とともに変化するネットワークデータを対象として,ネットワークの構造によって決定された各ノードの将来的な重要度・影響力 (ネットワークの中心性) をリンク予測と RankBoost を用いることでノードの順位を予測する手法を提案する.この手法を共著ネットワークに適用することで,将来の主要な著者を予測する.arXiv(hep-th) データセットから抽出した共著ネットワークを用いた実験により,リンク予測をノードの順位予測に適用させることで AUC の高いリンク予測行うことができ,将来的なノードの順位をより正しく予測できた.This paper proposes a framework to predict future significance or importance of nodes of a network through link prediction. The network can be any kind, such as a co-authorship network where nodes are authors and co-authors are linked by edges. In this example, prediciting significant nodes may mean to discover influential authors in the future. There are existing approaches to predicting such significant nodes in a future network and they typically rely on existing relationships between nodes. However, since such relationships are dynamic and would naturally change over time (e.g., new co-authorship continues to emerge), approaches based only on the current status of the network would have limited potentiality to predict the future. In contrast, our proposed approach first predicts future links between nodes by multiple supervised classifiers and applies the RankBoost algorithm for combining the predicitions such that the links would lead to more precise predictions of a centrality (significance) measure of our choice. To demonstrate the effectiveness of our proposed approach, a series of experiments are carried out on the arXiv (HEP-Th) citation data set.
-
秦 華偉, 関 和広, 上原 邦昭
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 110 ( 400 ) 71 - 76 2011年1月
出版者・発行元:一般社団法人電子情報通信学会
ブログやマイクロブログといったソーシャルメディアの利用者の増加に従い,これら新しいメディアからの情報の抽出・利用についての研究が盛んに行われている.本研究では,特にソーシャルブックマークに注目し,熟練者による従来の統制語彙に基づく索引との比較を通して,情報検索におけるその有用性を検証する.より具体的には,生物医学分野の文献を対象に,各文献に付与されたMeSH索引語(統制語彙に基づく索引)とソーシャルブックマークサービスの1つであるCiteULikeを利用して付与されたソーシャルタグを比較し,その特徴と有用性を様々な観点から実験的に調査・報告する.
-
1C1-2 アンサンブル法によるブログフィード検索(機械学習)
村里 創, 野口 智義, 関 和広, 上原 邦昭
インテリジェントシステム・シンポジウム講演論文集 2011 ( 21 ) 70 - 73 2011年
出版者・発行元:日本機械学会
The previous work for blog feed search typically aggregates the contents of blog posts or the relevance of blog posts belonging to the same site to find relevant blog sites. As another approach, the present study focuses on an assumption that there are some characteristics shared among relevant blog sites and, based on the assumption, proposes a machine learning framework for feed search. More precisely, we adapt an ensemble framework, which combines multiple classifiers or their outputs, and treat retrieval models as pseudo classifiers.
-
萩村 卓也, 関 和広, 上原 邦昭
電子情報通信学会技術研究報告. LOIS, ライフインテリジェンスとオフィス情報システム = IEICE technical report. LOIS, Life intelligence and office information systems 110 ( 42 ) 99 - 103 2010年5月
出版者・発行元:一般社団法人電子情報通信学会
生物医学分野では,古くから潜在的知識(仮説)を自動的に発見,あるいは発見の手助けをするための研究が行われている.これを日常的なドメインに適用すれば,人間の発想や着想を助けるための独創的思考支援の方法と成りうる.本研究では,通常の情報検索システムに三段論法による仮説生成機能を実装した「発想支援ユーザエージェント」を用いて,ユーザの発想・着想支援の可能性について議論する.
-
関 和広, 上原 邦昭
電子情報通信学会技術研究報告. LOIS, ライフインテリジェンスとオフィス情報システム = IEICE technical report. LOIS, Life intelligence and office information systems 110 ( 42 ) 1 - 6 2010年5月
出版者・発行元:一般社団法人電子情報通信学会
ブログやマイクロブログ(Twitterなど)といったソーシャルメディアの利用者の増加に従い,これら新しいメディアからの情報の抽出・利用についての研究が盛んに行われている.本研究では,ソーシャルメディアを実世界のオブジェクトのメタデータと捉え,これが従来の情報検索に及ぼす影響について議論する.特に本稿では,ソーシャルブックマークに注目し,熟練者による従来の統制語彙に基づく索引との比較を通して,情報検索におけるその有用性を検証する.より具体的には,生物医学分野の文献を題材とし,各論文に付与されたMeSH索引語(統制語彙に基づく索引)とソーシャルブックマークサービスの1つであるCiteULikeを利用して付与されたソーシャルタグを比較し,その特徴と有用性を様々な観点から実験的に調査する.実験の結果,情報検索においてソーシャルタグはMeSHと相補的に機能し,ソーシャルタグの網羅性が高まるほど検索精度が向上することが示された.
-
木野 嘉祐, 関 和広, 上原 邦昭
情報処理学会研究報告バイオ情報学(BIO) 2008 ( 126 ) 107 - 110 2008年12月
出版者・発行元:一般社団法人情報処理学会
本研究では,共通祖先からの種分化によって生じた遺伝子(相同分子種)を利用し,遺伝子機能の階層構造を考慮した多階層分類による遺伝子機能アノテーションの手法を提案する.遺伝子機能とは,当該遺伝子(の生成物)が持つ性質であり,FlyBase や MGI など既存のモデル生物データベースにおいて各遺伝子の主要な情報として付与されている.これらの遺伝子機能の記述は,複数のモデル生物データベースに対する横断的なアクセスを可能にするため,一種の統制語彙である Gene Ontology(GO) に基づいて行われている.提案手法は,所与の遺伝子とその相同遺伝子との対応関係に基づき,相同遺伝子に既に付与されている遺伝子機能を制約とし,この制約上で利用可能な訓練事例から動的に分類器を作成することで高精度な分類を行う.先行研究との比較により,提案手法の有効性を示す.This paper proposes a novel method for gene functional annotation in the framework of hierarchical classification that uses as constraints known (already annotated) functions of genes orthologous to a given gene. A gene function is a biological property of a gene or the product it encodes, and is annotated with each gene in model organism databases, such as FlyBase and MGI. These gene functions are described using Gene Ontology (GO), common vocabularies to enable uniform access to different model organisms databases. Our proposed approach exploits gene functions of orthologous gene as constraints, dynamically creating classifiers from training data available under the constraints. The effectiveness of the proposed approach is demonstrated in various experiments.
-
服部 弘幸, 関 和広, 上原 邦昭
情報処理学会研究報告数理モデル化と問題解決(MPS) 2008 ( 17 ) 65 - 68 2008年3月
出版者・発行元:一般社団法人情報処理学会
言語表記における問題の一つに,文字表記の揺れ(異表記)がある.例えば,「ロサンゼルス」は「ロスアンゼルス」や「ロサンジェルス」のようにも表記が可能である.特に,日本語においてはこのようなカタカナ異表記が多く存在しており,自然言語を機械的に処理する際の障害となっている.これに対処するため,異表記生成などの研究が行われている.しかし,従来の研究ではカタカナ表記の字面を利用した書き換え規則による手法が主流であり,カタカナ語の原言語等,より深層的な特徴は考慮されていない.また,これらの研究では書き換え規則の獲得にコーパスを用いているため,学習データの影響を受けやすい.そこで本論文では,原言語の音韻がカタカナ表記に関係している点に着目し,英語由来のカタカナ語を確率的に原言語音素列に変換,さらにその音素列をカタカナ語に逆変換することで多様なカタカナ異表記を自動生成するモデルを提案する.また,提案モデルを情報検索システムの検索質問拡張に利用し,評価実験を行う.In Japanese orthography, there is often more than one way to spell a phoneme sequence. This is especially true for katakana words which are typically transliterations from foreign languages. For example, "Los Angeles"' can be written as "rosuanjerusu,'' "rosanzerusu," or "rosuanzerusu" in Japanese; they all are considered legitimate. This ambiguity becomes a critical problem for automatic processing when those variants need to be associated with the same concept. To deal with the problem, this paper proposes a novel approach to produce katakana variants for a given katakana word based on a generative model that considers phonetic orthography of the original language for the given word. The proposed model is empirically evaluated based on the variants it generated. It is also shown that the model is beneficial for information retrieval systems when applied to query expansion.
-
関和広, MOSTAFA Javed
情報処理学会シンポジウムシリーズ(CD-ROM) 2007 ( 3 ) 1C-3 2007年11月
-
服部 弘幸, 関 和広, 上原 邦昭
情報処理学会研究報告自然言語処理(NL) 2007 ( 94 ) 59 - 64 2007年9月
出版者・発行元:一般社団法人情報処理学会
情報検索における問題の一つに,文字表記の揺れ(異表記)があげられる.例えば,「ロサンゼルス」は「ロスアンゼルス」や「ロサンジェルス」のようにも表記可能であるため,このうち任意の表記が検索語として与えられた場合,情報検索システムは他の表記も考慮することが望ましい.特に,日本語においては上記のようなカタカナ異表記が多く存在しており,これに対処するために様々な研究が行われている.しかし,これらの研究では異表記の生成に限られたコーパスを用いているため,データの過疎性に起因する問題が生じやすい.そこで本論文では,原言語の音韻がカタカナ表記に関係している点に着目し,英語由来のカタカナ語を確率的に原言語音素列に変換,さらにその音素列をカタカナ語に逆変換することで複数のカタカナ異表記を自動生成する手法を提案する.また,NTCIR-3 の Web 検索テストコレクションを用いた評価実験について報告する.In information retrieval and other text processing applications, there has been a problem concerned with variant notations. For example, "Los Angeles'' can be written as "rosuanjerusu,'' "rosanzerusu,'' or "rosuanzerusu'' in Japanese. Thus, it would be desirable that a search system considers all the notations given any of them as a query. Although, there has been much research conducted for dealing with the problem, the previous work typically relied on the katakana rewriting rules derived from Japanese corpora or search engine logs, which apt to be suffered from the data sparseness problem. This paper proposes---based on our observation that a number of katakana variants are influenced by the pronunciation in the source language---a method to automatically generate katakana variants by back-transliterating a katakana word. The proposed method is evaluated on the NTCIR-3 Web retrieval test collection.