文档分类图书馆学信息学计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。

需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。

可以根据主題英语Subject (documents)来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。

“基于内容”与“基于请求”的分类方法

编辑

基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说,在图书馆中,当一个文档被划分到某个类别时,这个文档中至少要有20%的内容是关于这个类的。[1]在自动分类的领域,这个标准可能是一些给定单词在文档中出现的频率。

面向请求的分类(或者索引) 是通过向用户获得请求后,根据用户的请求将文档进行分类。一个形象的比喻,好比分类器会问自己:“我应该通过哪种特征找到这些文档呢”,或者“通过哪些本质特征能够让我找出我身边相关的文档呢?”[2]

面向请求的分类主要的适用对象是一个特定的用户或群体。比方说,一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类,就是把它理解成为“基于策略的分类”:基于特殊群体的请求,通过一定的想法和策略进行分类,从而达到目的。在这种方式下,分类方式就不一定是100%基于用户研究的领域了,可以通过一些共性的策略,加以组合或修改,来实现用户的请求。只有从用户和应用中获得的经验使用了,面向请求的分类才可以被认为是一种基于用户的实现方法。

文档自动分类

编辑

文档自动分类的任务可以分为三类:监督式学习的文档分类,这需要人工反馈数据的一些外在机制。非监督式学习的文档分类(也被称作文档聚类),这类任务完全不依靠外在人工机制。和半监督式学习的文档分类,是前两类的结合,[3] 它其中有一部分的文档是由人工标注的,这有一些相关方面的具有许可证的软件。[4][5][6][7][8]

工具

编辑

自动的文档分类工具如下:

应用领域

编辑

分类工具被应用于如下:

  • 邮件过滤英语spam filtering,一种能够从合法邮件中检查出垃圾电子邮件的方法。
  • 电子邮件按路线送达, 根据本话题内容中提到的方法将电子邮件送至一个特殊群体的一般地址。[9]
  • 语言辨识英语language identification, 自动辨识一个文档中的语言。
  • 流派分类, 自动辨识一个纯文本的流派。[10]
  • 可读性评价, 自动评价一个纯文本的可读性程度,或者找到可读性适合于某一特定群体的文本,这属于文本简化英语text simplification的体系。
  • 情感分析,辨析出说话人或者作者在关于某一个主题或者全文的情感或者态度。
  • 健康相关的分析,用社交媒体来监管大众的健康问题。[11]

[12]

参阅

编辑

延伸阅读

编辑

参考资料

编辑
  1. ^ 美国国会图书馆 (2008). 主题标题手册. 华盛顿特区: 美国国会图书馆,政策和标准的划分。(Sheet H 180: “被分派的话题至少由20%的与标题有关的信息组成。”
  2. ^ Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
  3. ^ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息处理和管理, 52(2):217–257.
  4. ^ An Interactive Automatic Document Classification Prototype (PDF). [2018-03-18]. (原始内容 (PDF)存档于2017-11-15). 
  5. ^ Interactive Automatic Document Classification Prototype 互联网档案馆存檔,存档日期April 24, 2015,.
  6. ^ Document Classification - Artsyl
  7. ^ ABBYY FineReader Engine 11 for Windows. [2018-03-18]. (原始内容存档于2015-04-23). 
  8. ^ Classifier - Antidot. [2018-03-18]. (原始内容存档于2020-11-25). 
  9. ^ Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.
  10. ^ Santini, Marina; Rosso, Mark, Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], (原始内容 (PDF)存档于2019-11-15) 
  11. ^ X. Dai, M. Bikdash and B. Meyer, "通过社交媒体监管大众的健康问题:通过词嵌入的方法分析推特从而分类," SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258
  12. ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988 . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4. 

外部链接

编辑

📚 Artikel Terkait di Wikipedia

處理器

文档处理器(英语:Document processor),一种表面上类似于文字处理器,但是强调文档的视觉布局的计算机程序 信息处理器(英语:Information processor),一以某种形式获取信息,在通过算法处理后将其转换为另一种形式的信息的系统。 数据处理系统(英语:Data processing

DSSSL

- Document description and processing languages. ISO. 5 March 2008 [2009-12-25].  ISO JTC1/SC34. JTC 1/SC 34 - Document Description and Processing Languages

SCRIPT/VS

Monitor System)下使用的Script,以及在Virtual Machine Facility/370(VM/370)和OS/VS2的分时操作选项(Time Sharing Option,TSO)下使用的Script/370。当前版本SCRIPT/VS是IBM文档排版工具(Document Composition

自然语言处理

自然語言處理(英語:Natural Language Processing,缩写作 NLP)是人工智慧和語言學領域的交叉學科,研究计算机处理、理解与生成人类语言的技術。此領域探討如何處理及運用自然語言;自然語言處理包括多方面和步骤,基本有认知、理解、生成等部分。

开放打包约定

ISO/IEC 29500-2:2008 - Information technology -- Document description and processing languages -- Office Open XML File Formats -- Part 2: Open

MSXML

NULL, CLSCTX_INPROC_SERVER); if( FAILED(hr)) printf("Failed to create DOM document interface pointer.\n"); //加载xml文件代码为: try { pXmlDoc->async = VARIANT_FALSE;

可支援開放文件軟體列表

(純匯入;匯出功能開發中) Google Docs and Spreadsheets,線上文書處理及試算表程式,可以讀寫OpenDocument word processing (ODT)格式的文件。 Zoho Writer,線上的文書處理程式,可以讀寫ODT 格式的文件。 ajaxWrite,線上文書處理程式,可以讀寫ODT

Office Open XML

通常安装在 C:\Program Files (x86)\Open XML SDK\V2.5\。 一个Open XML文档包含多个文档部分(document part)。ZIP格式支持任意访问各个部分。例如,一个slide页面、Word文档中的comment,都是独立的文档部分。一个Open XML文档就是一个Open