tokenize-file

Read a file, tokenize it, and spit out a handy JSON.

tokenize-file

Read a file, tokenize it, and spit out a handy JSON.

Installation

npm i tokenize-file -S

Example

var tokenizeFile = require("tokenize-file");

tokenizeFile("path/to/file.txt", tokens => {
  console.log(tokens.filter(d => !d.stop_word && d.pos !== "N"));
});

API

#tokenizeFile(path/to/file_name, callback)

Read a file, tokenize it, and spit out the JSON of the tokens. The tokenized data is passed as an array of objects to the callback function. In the array, each token is an object, represented as:

{
  value: "String", // the token
  count: Number, // the number of times it appears in the file
  pos: "String" // the token's Penn Treebank POS tag,
  stop_word: Boolean // whether the token value is a stop word, which can be filtered out in some analyses
}

tokenizeFilecan read any type of file supported by textract:

  • HTML, HTM
  • ATOM, RSS
  • Markdown
  • XML, XSL
  • PDF
  • DOC, DOCX
  • ODT, OTT (experimental, feedback needed!)
  • RTF
  • XLS, XLSX, XLSB, XLSM, XLTX
  • CSV
  • ODS, OTS
  • PPTX, POTX
  • ODP, OTP
  • ODG, OTG
  • PNG, JPG, GIF
  • DXF
  • application/javascript
  • All text/*mime-types.

The POS tags are:

POS TagDescriptionExample
CCcoordinating conjunctionand
CDcardinal number1, third
DTdeterminerthe
EXexistential therethere is
FWforeign wordd’hoevre
INpreposition/subordinating conjunctionin, of, like
JJadjectivebig
JJRadjective, comparativebigger
JJSadjective, superlativebiggest
LSlist marker1)
MDmodalcould, will
NNnoun, singular or massdoor
NNSnoun pluraldoors
NNPproper noun, singularJohn
NNPSproper noun, pluralVikings
PDTpredeterminerboth the boys
POSpossessive endingfriend‘s
PRPpersonal pronounI, he, it
PRP$possessive pronounmy, his
RBadverbhowever, usually, naturally, here, good
RBRadverb, comparativebetter
RBSadverb, superlativebest
RPparticlegive up
TOtoto go, to him
UHinterjectionuhhuhhuhh
VBverb, base formtake
VBDverb, past tensetook
VBGverb, gerund/present participletaking
VBNverb, past participletaken
VBPverb, sing. present, non-3dtake
VBZverb, 3rd person sing. presenttakes
WDTwh-determinerwhich
WPwh-pronounwho, what
WP$possessive wh-pronounwhose
WRBwh-abverbwhere, when

HomePage

https://github.com/HarryStevens/tokenize-file#readme

Repository

https+https://github.com/HarryStevens/tokenize-file


上一篇:jeezy
下一篇:textract

相关推荐

  • 详解微信小程序 wx.uploadFile 的编码坑

    编写微信小程序时,用到 wx.uploadFile,用来上传图片+文本信息.然而在编写过程中,由于官方的 demo 和文档描述很少,在几个坑上耗费了不少时间. 这里分享一个和编码有关的坑,主要是由于...

    3 年前
  • 解决: 图片上传File对象不兼容IE

    最近做公司业务, 上传图片出问题了~ 首先是要求前端传递的图片名称不能是中文 ??? image.png(https://img.javascriptcn.com/5a5e9c0d107b25cd9...

    7 个月前
  • 节点和错误:emfile,打开的文件太多

    节点和错误:emfile,打开的文件太多...

    2 年前
  • 美化文件上传按钮自定义input file样式

    input file的样式不能直接用css来美化,我们可以曲线救国,把input file的透明度降低为0,相当于把这个控件隐藏了,实际上只是透明度为0,还是存在的,然后把div套上去,让div充当f...

    1 年前
  • 用file标签实现多图文件上传预览

    js 代码: HTML代码: 以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持JavaScript中文网!...

    3 年前
  • 用bootstrap file input 上传图片

    项目中经常会遇到文件上传,管理多文件上传过程的需求。 bootstrap file input组件算是不错的解决方案 图片描述(https://img.javascriptcn.com/adcd17...

    2 年前
  • 浅谈$_FILES数组为空的原因

    今天做上传的文件时候,打印$files总是为空,查阅了下资料。 发现是 maxfileuploads=0 知道了原因 以上这篇浅谈$FILES数组为空的原因就是小编分享给大家的全部内容了,希望...

    3 年前
  • 服务人员抛出一个网::err_file_exists错误?

    服务人员抛出一个网::errfileexists错误?...

    2 年前
  • 最好用的Bootstrap fileinput.js文件上传组件

    本篇介绍如何使用bootstrap fileinput.js(最好用的文件上传组件)来进行图片的展示,上传,包括springMVC后端文件保存。 一、demo (https://img.javas...

    3 年前
  • 文件上传File格式转为Blob格式

    最近项目开发中涉及到文件上传功能,使用的是七牛的服务。查看七牛文档发现文件上传格式为blob,而本地添加上传文件时获取到的是file格式,因此需要将file转换为blob,具体转换方法如下: ...

    1 年前

官方社区

扫码加入 JavaScript 社区