文件上传可以说是Web应用中很常用的一块,前几天打算研究一下HTML5提供的FileReader API,并且用Tomcat作为后端来实验大文件的上传(只是学校的课程作业必须用Java写,都不允许使用最好的编程语言php>.<)。可Java Servlet与php这种喜闻乐见的Web码农语言不同,并没有提供一个很简单的处理文件上传的API,所以还捣鼓了蛮久,也对一般的文件上传的HTML控件和实现原理稍微有了一点了解。
对面宿舍的一位同学说我很久没更了不太好,于是我就写一篇,谢谢他的提醒。
首先,我们都知道最常见的HTML的文件上传控件是喜闻乐见的<input type="file">,但一定要搭配form的属性enctype="multipart/form-data",服务器上要有一个接收上传的cgi或者别的什么,既然我们用java写,就叫uploadServlet。于是有了一个如下的常见的上传表单。
<form action="uploadServlet" enctype="multipart/form-data" method="POST">
<input name="password" type="password" />
<input name="File1" type="file" />
<input type="submit" value="Upload" />
</form>
然后我们在后端处理。由于Java Servlet的API是没有提供什么$_FILES数组这样傻瓜式的文件操控方式,我们必须自己处理request。我们不妨先把收到的request输出到文件当中,看看Servlet会收到什么,再想想怎么处理。放这样一个servlet的代码:
import javax.servlet.*;
import javax.servlet.http.*;
import java.io.*;
public class UploadServlet extends HttpServlet{
@Override
public void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException{
response.setContentType("text/plain;charset=utf-8");
PrintWriter writer=response.getWriter();
InputStream in=request.getInputStream();
File f = new File("/tmp/upload");
//把文件存到/tmp/upload
FileOutputStream fout = new FileOutputStream(f);
byte[] b=new byte[1024];
int n=0;
while ((n=in.read(b))!=-1){
fout.write(b,0,n);
}
fout.close();
in.close();
writer.println("Finished uploading files!");
writer.close();
}
}
有了Servlet就拖出去跑一跑。这里我的表单不仅会发送文件,还会发送一个密码域。如果我随便发一个文本文件,那么我得到了这样的结果。
多上传几次还会发现那一堆横杠开头的数字会变动。这下不好玩了,虽然我们可以看到我们上传的数据,但要解析它有点过于复杂了。这个请求是依据RFC1867来写的,虽然有标准可依,但我们这么懒怎么会去依照标准写一个解析器呢?
于是我们需要请出Apache开发的文件上传处理库Commons FileUpload。这个网站提供了最新版的下载链接和基本的使用指南。文档讲得过于全面了,而我们一般不需要那么多功能,够用就好。翻了几篇教程,写出来了一个简单的文件上传接收代码。
java
import javax.servlet.*; import javax.servlet.http.*; import java.io.*; import java.util.*; import org.apache.commons.fileupload.*; import org.apache.commons.fileupload.servlet.*; import org.apache.commons.fileupload.disk.*;
首先需要多装载三个库,以及一个java.util.List,因为到时候处理的时候,Commons FileUpload会把搞成一个List返回回来,我们需要接收这个List并处理解析它。
public class UploadServlet extends HttpServlet{
private String filepath;
private String temppath;
private String buf;
public void init(ServletConfig config) throws ServletException{
super.init(config);
ServletContext context=getServletContext();
filepath=context.getRealPath("/"+config.getInitParameter("filepath"));
temppath=context.getRealPath("/"+config.getInitParameter("temppath"));
}
为了方便维护,我把保存上传文件的目录用Init Parameter的方式写到web.xml里面去,然后在这个地方读出来。我们需要一个保存上传文件的目录和一个用来做缓存的临时目录。如果你接收上传文件之后不打算保存而是直接拿去处理,也没有问题,但是一定要有一个缓存目录,在后面有用。
接下来是真正激动人心的处理上传的代码了。我懒得写doGet了所以就只有一个doPost。
@Override
public void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException{
response.setContentType("text/plain;charset=utf-8");
PrintWriter writer=response.getWriter();
int count=0;
try{
DiskFileItemFactory diskFactory = new DiskFileItemFactory();
diskFactory.setSizeThreshold(4 *1024 );
diskFactory.setRepository(new File(temppath));
这里我们开了一个diskFactory,就是FileUpload所需要使用的缓存,当内存存不下上传的文件的时候,它会自动写入缓存目录。通过setSizeThreshold方法可以设置内存的使用上限,也就是当内存用了这么多却还存不下,就开始写缓存。显然这个值很大程度上会决定这个Servlet的效率。
ServletFileUpload upload = new ServletFileUpload(diskFactory);
upload.setSizeMax(4 * 1024 * 1024);
List fileItems = upload.parseRequest(request);
Iterator iter = fileItems.iterator();
这里我们就真正建了一个ServletFileUpload的实例upload来处理文件的上传。可以设置上传文件的最大大小。然后把request对象直接交给upload来解析,它会返回一个一个List,这个List的每一项实际上是一个FileItem对象,后面就要用迭代器处理这个列表。
while (iter.hasNext()){
FileItem item = (FileItem) iter.next();
if (item.isFormField()){
writer.println(item.getFieldName()+" : "+item.getString());
}
要注意的是ServletFileUpload也会处理非文件的信息,可以用isFormField方法来检查,然后将信息获取出来。但这在这里不是重点,只是必须要处理掉而已。
else{
String filename = item.getName();
filename = filename.substring(
filename.lastIndexOf("\\")+1,filename.length());
File uploadFile = new File(filepath+"/"+filename);
item.write(uploadFile);
writer.println("Get file:"+ filename);
writer.println(" filetype: "+item.getContentType());
count++;
}
}
} catch (Exception e){
e.printStackTrace();
}
writer.println("Finished uploading files!");
writer.close();
}
}
处理文件的代码就这么点,如果还要说什么的话,就是每个文件的FileItem对象不仅可以用write方法来直接写到什么文件里面去,也可以用getInputStream方法得到一个输入流来解析,或者用get方法直接读到一个byte数组里面去。可以说这个库提供了一个很方便的方法解析上传的文件。
最后提一下,Apache Commons是一个Java增强库,提供了大量的优质Java资源库,涉及很多开发领域。如果不出意外,应该我会在近期写一篇关于JavaScript FileReader的blog,敬请期待。