Review Papers (Misc) - Kazuhiro Seki
-
テキストデータを利用した新しい景況感指標の開発と応用 (下) ―応用編:深層学習を利用したテキスト分析―
生田 祐介, 関 和広, 松林 洋一
APIR Discussion Paper Series 48 2021.2
Publishing type:Internal/External technical report, pre-print, etc.
-
Toward Exploratory Search in Biomedicine: Evaluating Document Clusters by MeSH as a Semantic Anchor.
Michael Segundo Ortiz,Kazuhiro Seki,Javed Mostafa
CoRR abs/1812.02129 2018
-
Measures of Cluster Informativeness for Medical Evidence Aggregation and Dissemination.
Michael Segundo Ortiz,Sam Bubnovich,Mengqian Wang,Kazuhiro Seki,Javed Mostafa
CoRR abs/1809.01678 2018
-
金融情報学: ファイナンスにおける人工知能応用
関和広, 水田孝信, 八木勲, 落合友四郎, 酒井浩之, 和泉潔
人工知能学会誌 32 ( 6 ) 905 - 910 2017
Authorship:Lead author Publishing type:Article, review, commentary, editorial, etc. (international conference proceedings) Publisher:人工知能学会
-
Semantic Web Today: From Oil Rigs to Panama Papers.
Rivindu Perera,Parma Nand,Boris Bacic,Wen-Hsin Yang,Kazuhiro Seki,Radek Burget
CoRR abs/1711.01518 2017
-
吉原 輝, 関 和広, 上原 邦昭
研究報告数理モデル化と問題解決(MPS) 2015 ( 4 ) 1 - 6 2015.2
Publisher:一般社団法人情報処理学会
投資家が投資を行う際,株価等の数値情報の他に,新聞記事等の言語情報を基に株の売買を判断する.この判断を支援するため,これまで様々な研究が行われており,数値情報を対象にした研究では,株価の時系列データの特性が多く利用されている.これに対し,言語情報を対象にした研究では,その特性がほとんど利用されていない.これは,言語情報が株価に与える影響の時間的な変化を人手でルール化することが困難だからである.一方で,画像認識や音声認識などの分野において近年注目を集めている深層学習 (Deep Learning) は,大規模なデータから有益な特徴の抽出が可能である.そこで本研究では,深層学習のアプローチを応用し,時間的な変化を考慮した再帰的なネットワークを構築することで株価動向の推定を行う手法を提案する.入力に新聞記事のデータを用いることで,言語情報が与える影響の時間的な変化を捉えることができる.実際の新聞記事と株価のデータを用いて 10 銘柄の株価動向推定を行い,本手法の有効性を示す.
-
Financial Trend Prediction and Analysis through Textual Data
藤川 和樹, 関 和広, 上原 邦昭
人工知能学会全国大会論文集 28 1 - 4 2014
Publisher:人工知能学会
-
Shun Kawahara,Kuniaki Uehara,Kazuhiro Seki
Proceedings of The Twenty-Third Text REtrieval Conference, TREC 2014, Gaithersburg, Maryland, USA, November 19-21, 2014 2014
Publisher:National Institute of Standards and Technology (NIST)
Other Link: http://dblp.uni-trier.de/db/conf/trec/trec2014.html#conf/trec/KawaharaUS14
-
一般講演 マイクロブログ文書の選択による擬似適合フィードバック (データ工学)
宮西 大樹, 関 和広, 上原 邦昭
電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 ( 150 ) 83 - 88 2013.7
Publisher:一般社団法人電子情報通信学会
マイクロブログ検索では擬似適合フィードバックを用いたクエリ拡張が有効であることが知られている.擬似適合フィードバックでは,初期検索の上位の検索結果は適合文書であり,この適合文書の中にユーザクエリの補強に役立つ単語が含まれていると仮定している.しかし,上位の検索結果の多くが非適合文書である場合,擬似適合フィードバックを用いると,ユーザクエリに関係のない単語を選んでしまう可能性がある.そこで,提案手法は上位の検索結果の中からマイクロブログ文書を1つだけユーザが選び,この文書をクエリ拡張に用いることで選んだ適合文書と類似した適合文書を上位の検索結果に集める.そして,再検索した上位の結果に対して擬似適合フィードバックを適用することで,検索精度の向上を図る.マイクロブログの代表的なサービスであるTwitterのデータを用いて提案手法と従来の擬似適合フィードバックとを比較する.
-
宮西 大樹, 関 和広, 上原 邦昭
情報処理学会研究報告. 情報学基礎研究会報告 2013 ( 15 ) 1 - 6 2013.7
Publisher:一般社団法人情報処理学会
マイクロブログ検索では擬似適合フィードバックを用いたクエリ拡張が有効であることが知られている.擬似適合フィードバックでは,初期検索の上位の検索結果は適合文書であり,この適合文書の中にユーザクエリの補強に役立つ単語が含まれていると仮定している.しかし,上位の検索結果の多くが非適合文書である場合,擬似適合フィードバックを用いると,ユーザクエリに関係のない単語を選んでしまう可能性がある.そこで,提案手法は上位の検索結果の中からマイクロブログ文書を 1 つだけユーザが選び,この文書をクエリ拡張に用いることで選んだ適合文書と類似した適合文書を上位の検索結果に集める.そして,再検索した上位の結果に対して擬似適合フィードバックを適用することで,検索精度の向上を図る.マイクロブログの代表的なサービスである Twitter のデータを用いて提案手法と従来の擬似適合フィードバックとを比較する.
-
On-demand epidemic surveillance using social sensors
岡村 直人, 関 和広, 上原 邦昭
神戸大学都市安全研究センター研究報告 ( 17 ) 177 - 184 2013.3
Publisher:神戸大学都市安全研究センター
-
Hierarchical phrase clustering based on different types of predicate argument relations
KUMANAMI Koji, SEKI Kazuhiro, UEHARA Kuniaki
Technical report of IEICE. Thought and language 112 ( 442 ) 49 - 54 2013.2
Publisher:The Institute of Electronics, Information and Communication Engineers
This paper proposes an approach to clustering synonymous phrases focusing on two types of predicate argument relations extracted from natural language texts One is associated with similar causes, the other with similar effects Based on the context represented by those relations, a matrix is constructed with rows being noun phrases and columns being a pair of a noun and a verb phrases Due to the inherent sparsity of the matrix, two strategies are taken to group nouns with similar distributions One strategy is to simply use a large-scale cor-pus, which however results in a huge matrix To handle the matrix, a parallel distributed programming model, MapReduce, is employed The other is to adapt hierarchical clustering using co-clustering The effectiveness of the proposed approach is empirically demonstrated on a series of experiments.
-
Learning Non-Linear Classifiers with a Sparsity Upper-Bound via Efficient Model Selection
BLONDEL Mathieu, SEKI Kazuhiro, UEHARA Kuniaki
電子情報通信学会技術研究報告. IBISML, 情報論的学習理論と機械学習 = IEICE technical report. IBISML, Information-based induction sciences and machine learning 112 ( 83 ) 9 - 14 2012.6
Publisher:The Institute of Electronics, Information and Communication Engineers
Support Vector Machines, when combined with kernels, achieve state-of-the-art accuracy on many datasets. However, their use in many real-world applications is hindered by the fact that their model size is often too large and their prediction function too expensive to evaluate. In this paper, to address these issues, we are interested in the problem of learning non-linear classifiers with a sparsity budget. We first define an L1-regularized convex objective and show how to optimize it, without budget. Next, we show how our approach can be naturally extended to incorporate a budget by using constrained model selection. Experiments show that, compared to SVMs, our approach leads to much more parsimonious models with comparable or better accuracy.
-
東山翔平, 関和広, MathieuBlondel, 上原邦昭
第74回全国大会講演論文集 2012 ( 1 ) 653 - 654 2012.3
固有表現抽出は,自然言語処理における基本的な問題のひとつであり,テキスト中に現れる固有名詞や時間表現などを同定することを目的とする.抽出の対象となる固有表現は,組織名や人名などが一般的であり,これらのカテゴリは本来,階層性を有する.たとえば,組織名はさらに会社名や大学名などのカテゴリに細分化されうる.このような階層構造のカテゴリを考えたとき,階層的に近い(遠い)という情報は固有表現抽出の際に利用可能であり,カテゴリ数が多い場合に特に有用であると考えられる.本研究では,構造化パーセプトロンによるカテゴリの階層性を考慮した固有表現抽出法を提案し,その有効性を検証する.
-
D-20-6 BLOG DISTILLATION WITH DATA FUSION
Nakasuga Akihiro, Seki Kazuhiro, Uehara Kuniaki
Proceedings of the IEICE General Conference 2012 ( 2 ) 2012.3
Publisher:The Institute of Electronics, Information and Communication Engineers
-
D-5-5 Learning to rank for real-time microblog retrieval
Liu Xiaoxi, Seki Kazuhiro, Uehara Kuniaki
Proceedings of the IEICE General Conference 2012 ( 1 ) 2012.3
Publisher:The Institute of Electronics, Information and Communication Engineers
-
熊南昂司, 関和広, 上原邦昭
第74回全国大会講演論文集 2012 ( 1 ) 643 - 644 2012.3
言語表現の多様性から,二つの語間の表層的な不一致は必ずしも意味的な不一致を意味しない.たとえば,carとautomobileは表層的には異なるものの,いずれも自動車を意味する.複数の語からなる句(フレーズ)の場合,表層と意味の不一致はさらに増加する.表層的に異なるフレーズ間の意味的な一致を判定することは,談話理解・生成においてきわめて重要である.本研究では,大規模なコーパスから抽出した大量のフレーズとその周辺文脈を基に階層的なクラスタリングを行うことで,意味的に類似したフレーズを同定する.また,大規模データに対応するため,MapReduceプログラミングモデルに適した効率的なクラスタリングアルゴリズムを提案する.
-
Stock Price Prediction by Combining Stock Price Regression and Web News Text Mining
TAKAHASHI Hiroyoshi, SEKI Kazuhiro, UEHARA Kuniaki
Technical report of IEICE. PRMU 111 ( 430 ) 103 - 108 2012.2
Publisher:The Institute of Electronics, Information and Communication Engineers
In this study, we propose a method for stock price prediction using web news articles. There are two types of information available to predict stock prices : numeric information such as stock prices, and textual information such as news articles. Prediction using only numeric information is insufficient because company's news also has some influence on their stock price. We apply a regression analysis for predicting using features extracted from news articles. Evaluative experiments using web news articles as textual information examine whether stock price can be predicted more accurately.
-
Learning Robust Sparse Kernel Classifiers
ブロンデルマチュー, 関 和広, 上原 邦昭
研究報告数理モデル化と問題解決(MPS) 2011 ( 2 ) 1 - 8 2011.11
カーネル分類器は多くのデータセットに対して優れた精度を示すことが分かっている.しかし,カーネル分類器のモデルの複雑性は訓練事例数に応じて線形に増加するため,訓練データの規模が大きくなるほど効果的にカーネル分類器を学習することが難しくなる.本研究では,スパースカーネル分類器を学習するための新しい逐次最適化アルゴリズムを提案する.提案アルゴリズムは,カーネルパーセプトロンと kernel matching pursuit に着想を得たものであり,a) 訓練データを有効に使用できる,b) ラベルノイズに頑健である,c) 任意の損失関数を利用できる,d) 実装も容易であるという多くの特長がある.複数のデータセットで評価実験を行ったところ,多くの実験設定において,提案手法は従来手法と同等か高い精度を示すことが明らかになった.Despite state-of-the-art accuracy on many real-world datasets, kernel classifiers remain notoriously difficult to train efficiently because the model complexity has a linear dependency with the number of training instances. In this paper, we propose a novel incremental optimization algorithm for learning sparse kernel classifiers in the primal. Strongly influenced by the kernel perceptron and kernel matching pursuit, our algorithm makes efficient use of training data, is robust to label noise, can employ any convex subdifferentiable loss function and is simple to implement. Extensive experiments on several standard datasets show that our algorithm achieves comparable or better performance than several existing methods.
-
Using Microblog for Syndromic Surveillance
岡村 直人, 関 和広, 上原 邦昭
研究報告自然言語処理(NL) 2011 ( 9 ) 1 - 7 2011.5
感染症サーベイランスには,大別して医療機関の情報を利用した方法とWeb情報を利用した方法がある.Web情報はリアルタイム性が高く,感染症の蔓延防止を目的とする感染症サーベイランスに有用である可能性がある.本論文では,Web情報,特にソーシャルメディアを用いた感染症サーベイランスの第一歩として,インフルエンザを対象にTwitterの有効性を実験的に調査する.Twitterに投稿されたインフルエンザの症状を含むtweetの分類を行い,実際のインフルエンザ報告件数との関係を分析する.There are roughly two types of syndromic surveillance; One uses information from medical institutions and another gathers information from the Web. The information used by the latter, such as consumer generated media (CGM), may reflect more real-time events and thus may be more useful for syndromic surveillance since detecting early infection of a target syndrome prevents wider spread of the syndrome. This paper investigates the usefulness of CGM, specifically microblogs, for syndromic surveillance focusing on influenza. We collect a number of microblog posts (tweets) which include symptoms of influenza and study their size and transition against those of reported true influenza cases.
-
吉川幹人, 関和広, 上原邦昭
第73回全国大会講演論文集 2011 ( 1 ) 403 - 404 2011.3
我々が情報検索を行う際,一度の検索では目的の情報を発見できず,検索質問を修正しながら連続して検索を行うことがある.このような「Query Chain」を利用することで,検索質問と(非)適合文書とを関連づけた学習データを効率的に自動生成する手法が提案されている.しかし,Query Chainによって作成した訓練事例を用いた検索は,学習データに出現しない検索質問に対してはうまく機能せず,一般的なウェブ検索等に用いることは困難であった.本研究では,検索質問の類似性を考慮して訓練事例を確率的にサンプリングすることにより,この問題の解決を試みる.また,より高品質・多量の訓練事例を獲得するためにQuery Chainの拡張を行なう.さらに,実データを用いた評価実験によって提案手法の有効性を検証する.
-
Promising Entities Discovery Based on Network Analysis
宮西 大樹, 関 和広, 上原 邦昭
研究報告数理モデル化と問題解決(MPS) 2011 ( 3 ) 1 - 8 2011.2
本論文では,リンク予測の問題を解くことで,ノードの順位予測を行うモデルを提案し,共著ネットワークから,将来的に重要または影響力を持つ著者 (有望エンティティ) を同定する.従来では,ある時点における著者をノード,著者同士の共著関係をエッジとした共著ネットワークから,構造的な特徴を基に重要度や影響力の大きな著者の同定を行ってきた.しかし,著者同士の関係は年を追うごとに変化しており,著者の最新の重要度や影響力を把握するためには,現時点における著者間の関係を見るだけでは不十分である.そこで,本論文では,時間とともに変化するネットワークデータを対象として,ネットワークの構造によって決定された各ノードの将来的な重要度・影響力 (ネットワークの中心性) をリンク予測と RankBoost を用いることでノードの順位を予測する手法を提案する.この手法を共著ネットワークに適用することで,将来の主要な著者を予測する.arXiv(hep-th) データセットから抽出した共著ネットワークを用いた実験により,リンク予測をノードの順位予測に適用させることで AUC の高いリンク予測行うことができ,将来的なノードの順位をより正しく予測できた.This paper proposes a framework to predict future significance or importance of nodes of a network through link prediction. The network can be any kind, such as a co-authorship network where nodes are authors and co-authors are linked by edges. In this example, prediciting significant nodes may mean to discover influential authors in the future. There are existing approaches to predicting such significant nodes in a future network and they typically rely on existing relationships between nodes. However, since such relationships are dynamic and would naturally change over time (e.g., new co-authorship continues to emerge), approaches based only on the current status of the network would have limited potentiality to predict the future. In contrast, our proposed approach first predicts future links between nodes by multiple supervised classifiers and applies the RankBoost algorithm for combining the predicitions such that the links would lead to more precise predictions of a centrality (significance) measure of our choice. To demonstrate the effectiveness of our proposed approach, a series of experiments are carried out on the arXiv (HEP-Th) citation data set.
-
Comparative Study on Social Tags and Controlled Vocabularies for Biomedical Information Retrieval
QIN Huawei, SEKI Kazuhiro, UEHARA Kuniaki
IEICE technical report 110 ( 400 ) 71 - 76 2011.1
Publisher:The Institute of Electronics, Information and Communication Engineers
This paper focuses on social bookmarks (or social tags) and investigates the their utility for information retrieval (IR). Our main research question asked in the present work is "How are social tags compared with conventional, yet reliable manual indexing from the viewpoint of IR performance?". To answer the question, we look at the biomedical literature and begin with examining basic statistics of social tags from CiteULike in comparison with Medical Subject Headings (MeSH) annotated in the Medline bibliographic database. Then, using the data, we conduct various experiments in IR settings, which reveal that retrieval performance can be improved by using social tags as additional indices and that the quality of social tags can be measured by the number of CiteULike users who use the same tags.
-
1C1-2 An Ensemble Approach to Blog Distillation
Murasato So, Noguchi Tomoyoshi, Seki Kazuhiro, Uehara Kuniaki
インテリジェントシステム・シンポジウム講演論文集 2011 ( 21 ) 70 - 73 2011
Publisher:日本機械学会
The previous work for blog feed search typically aggregates the contents of blog posts or the relevance of blog posts belonging to the same site to find relevant blog sites. As another approach, the present study focuses on an assumption that there are some characteristics shared among relevant blog sites and, based on the assumption, proposes a machine learning framework for feed search. More precisely, we adapt an ensemble framework, which combines multiple classifiers or their outputs, and treat retrieval models as pseudo classifiers.
-
A User Agent for Finding Unknown Associations
HAGIMURA Takuya, SEKI Kazuhiro, UEHARA Kuniaki
IEICE technical report 110 ( 42 ) 99 - 103 2010.5
Publisher:The Institute of Electronics, Information and Communication Engineers
In the biomedical domain, a number of researchers have conducted research to find potential relationships (hypotheses). This framework could be applied to other domains, which, if viable, can be a support to creative thinking by helping human conception and cogitation. In this paper, we discuss the idea of the "User Agent for Finding Unknown Associations", which is an information retrieval system equipped with functions to generate and rank syllogistic hypotheses.
-
関 和広, 上原 邦昭
電子情報通信学会技術研究報告. LOIS, ライフインテリジェンスとオフィス情報システム = IEICE technical report. LOIS, Life intelligence and office information systems 110 ( 42 ) 1 - 6 2010.5
Publisher:一般社団法人電子情報通信学会
ブログやマイクロブログ(Twitterなど)といったソーシャルメディアの利用者の増加に従い,これら新しいメディアからの情報の抽出・利用についての研究が盛んに行われている.本研究では,ソーシャルメディアを実世界のオブジェクトのメタデータと捉え,これが従来の情報検索に及ぼす影響について議論する.特に本稿では,ソーシャルブックマークに注目し,熟練者による従来の統制語彙に基づく索引との比較を通して,情報検索におけるその有用性を検証する.より具体的には,生物医学分野の文献を題材とし,各論文に付与されたMeSH索引語(統制語彙に基づく索引)とソーシャルブックマークサービスの1つであるCiteULikeを利用して付与されたソーシャルタグを比較し,その特徴と有用性を様々な観点から実験的に調査する.実験の結果,情報検索においてソーシャルタグはMeSHと相補的に機能し,ソーシャルタグの網羅性が高まるほど検索精度が向上することが示された.
-
Gene Functional Annotation by Ortholog-based Hierarchical Classification
KINO YOSHIHIRO, SEKI KAZUHIRO, UEHARA KUNIAKI
IPSJ SIG technical reports 2008 ( 126 ) 107 - 110 2008.12
Publisher:Information Processing Society of Japan (IPSJ)
This paper proposes a novel method for gene functional annotation in the framework of hierarchical classification that uses as constraints known (already annotated) functions of genes orthologous to a given gene. A gene function is a biological property of a gene or the product it encodes, and is annotated with each gene in model organism databases, such as FlyBase and MGI. These gene functions are described using Gene Ontology (GO), common vocabularies to enable uniform access to different model organisms databases. Our proposed approach exploits gene functions of orthologous gene as constraints, dynamically creating classifiers from training data available under the constraints. The effectiveness of the proposed approach is demonstrated in various experiments.
-
Generative Model for Diverse Katakana Variants based on English Phonetic Orthography
HATTORI HIROYUKI, SEKI KAZUHIRO, UEHARA KUNIAKI
IPSJ SIG Notes 2008 ( 17 ) 65 - 68 2008.3
Publisher:Information Processing Society of Japan (IPSJ)
In Japanese orthography, there is often more than one way to spell a phoneme sequence. This is especially true for katakana words which are typically transliterations from foreign languages. For example, "Los Angeles" can be written as "rosuanjerusu," "rosanzerusu," or "rosuanzerusu" in Japanese; they all are considered legitimate. This ambiguity becomes a critical problem for automatic processing when those variants need to be associated with the same concept. To deal with the problem, this paper proposes a novel approach to produce katakana variants for a given katakana word based on a generative model that considers phonetic orthography of the original language for the given word. The proposed model is empirically evaluated based on the variants it generated. It is also shown that the model is beneficial for information retrieval systems when applied to query expansion.
-
Predicting Implicit Genetic Associations using an IR Model
関和広, MOSTAFA Javed
情報処理学会シンポジウムシリーズ(CD-ROM) 2007 ( 3 ) 1C-3 2007.11
-
Automatic Katakana Variants Generation via English Phonemes
HATTORI HIROYUKI, SEKI KAZUHIRO, UEHARA KUNIAKI
IPSJ SIG Notes 2007 ( 94 ) 59 - 64 2007.9
Publisher:一般社団法人情報処理学会
In information retrieval and other text processing applications, there has been a problem concerned with variant notations. For example, "Los Angeles" can be written as "rosuanjerusu, " "rosanzerusu, " or "rosuanzerusu" in Japanese. Thus, it would be desirable that a search system considers all the notations given any of them as a query. Although, there has been much research conducted for dealing with the problem, the previous work typically relied on the katakana rewriting rules derived from Japanese corpora or search engine logs, which apt to be suffered from the data sparseness problem. This paper proposes-based on our observation that a number of katakana variants are influenced by the pronunciation in the source language-a method to automatically generate katakana variants by back-transliterating a katakana word. The proposed method is evaluated on the NTCIR-3 Web retrieval test collection.