
本文详细介绍了如何使用gson库在java中高效解析包含多条记录的ndjson文件。通过利用`jsonreader`的迭代读取能力和`peek()`方法判断文件结束,结合`setlenient(true)`处理非严格json格式,可以成功将所有ndjson记录映射到对应的dto对象列表中,避免了只读取首条记录的问题,为处理大规模ndjson数据提供了实用的解决方案。
使用Gson解析ndJson多条记录
在处理数据时,ndJson(Newline Delimited JSON)是一种常见的文件格式,它将每个JSON对象独立地放置在文件的一行中,以换行符分隔。当需要使用Java和Gson库解析这类文件时,一个常见的挑战是如何读取并映射文件中的所有记录,而不仅仅是第一条。本文将深入探讨如何高效地实现这一目标。
ndJson格式概述
ndJson文件的特点是每行包含一个完整的JSON对象。例如:
{"id": 1, "name": "Alice"}
{"id": 2, "name": "Bob"}
{"id": 3, "name": "Charlie"}这种格式在日志处理、数据流传输和大数据分析场景中非常有用,因为它允许逐行处理数据,无需一次性加载整个文件到内存中。
遇到的问题:只读取首条记录
当尝试使用Gson的fromJson()方法直接从FileReader或JsonReader读取ndJson文件时,通常只会成功解析并返回文件中的第一个JSON对象。这是因为fromJson()方法在遇到一个完整的JSON对象后就会停止读取,而不会自动迭代到文件的下一行。
考虑以下常见的错误实现:
import com.google.gson.Gson;
import com.google.gson.stream.JsonReader;
import java.io.FileReader;
import java.io.IOException;
import java.util.Map;
import java.util.ArrayList;
// 假设 CustomerFeedDTO 类已定义
class CustomerFeedDTO {
private Map profile;
private Map phone;
private ArrayList> addresses;
private Map orders;
private ArrayList> customs;
// Getters and setters (省略)
@Override
public String toString() {
return "CustomerFeedDTO{" +
"profile=" + profile +
", phone=" + phone +
", addresses=" + addresses +
", orders=" + orders +
", customs=" + customs +
'}';
}
}
public class NdJsonParserProblem {
public static void main(String[] args) {
Gson gson = new Gson();
try (JsonReader reader = new JsonReader(new FileReader("customer.json"))) {
// 这种方式只会读取第一个JSON对象
CustomerFeedDTO customerFeedDTO = gson.fromJson(reader, CustomerFeedDTO.class);
System.out.println("只读取到第一条记录: " + customerFeedDTO);
} catch (IOException e) {
e.printStackTrace();
}
}
} 上述代码只会将customer.json文件中的第一个JSON对象映射到CustomerFeedDTO实例中。
解决方案:迭代解析与JsonReader
要正确解析ndJson文件中的所有记录,我们需要利用JsonReader的迭代特性,通过循环逐个读取JSON对象。关键在于使用reader.peek()方法来判断文件是否已到达末尾,并结合reader.setLenient(true)来处理ndJson中可能存在的非严格JSON格式(例如,行与行之间的空白或注释)。
以下是完整的解决方案代码:
import com.google.gson.Gson;
import com.google.gson.stream.JsonReader;
import com.google.gson.stream.JsonToken;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
// 假设 CustomerFeedDTO 类已定义,与上面示例相同
class CustomerFeedDTO {
private Map profile;
private Map phone;
private ArrayList> addresses;
private Map orders;
private ArrayList> customs;
// Getters and setters
public Map getProfile() { return profile; }
public void setProfile(Map profile) { this.profile = profile; }
// ... 其他getter/setter
@Override
public String toString() {
return "CustomerFeedDTO{" +
"profile=" + profile +
", phone=" + phone +
", addresses=" + addresses +
", orders=" + orders +
", customs=" + customs +
'}';
}
}
public class NdJsonParserSolution {
public static void main(String[] args) {
List customerFeedDTOs = new ArrayList<>();
Gson gson = new Gson();
// 使用try-with-resources确保JsonReader正确关闭
try (JsonReader reader = new JsonReader(new FileReader("customer.json"))) {
// 启用宽松模式,以更好地处理ndJson格式,例如允许根级别的值之间没有分隔符
reader.setLenient(true);
// 循环读取,直到文件末尾
// reader.peek() != JsonToken.END_DOCUMENT 是判断文件是否结束的关键
while (reader.peek() != JsonToken.END_DOCUMENT) {
// 将当前JSON对象映射到CustomerFeedDTO
CustomerFeedDTO customerFeedDTO = gson.fromJson(reader, CustomerFeedDTO.class);
customerFeedDTOs.add(customerFeedDTO);
}
// 打印所有解析出的记录
System.out.println("成功解析所有记录:");
for (int i = 0; i < customerFeedDTOs.size(); i++) {
System.out.println("记录 #" + (i + 1) + ": " + customerFeedDTOs.get(i));
}
} catch (IOException e) {
e.printStackTrace();
}
}
} 代码解析:
-
List
customerFeedDTOs = new ArrayList(); : 创建一个列表来存储所有解析后的CustomerFeedDTO对象。 - try (JsonReader reader = new JsonReader(new FileReader("customer.json"))): 使用try-with-resources语句确保JsonReader和FileReader在操作完成后自动关闭,防止资源泄露。
- reader.setLenient(true);: 这一行至关重要。ndJson文件通常是多行JSON对象,它们之间只用换行符分隔,而没有逗号等严格的JSON数组分隔符。默认情况下,JsonReader是严格模式,当遇到这种非标准分隔时会抛出异常。setLenient(true)允许JsonReader以更宽松的方式解析,从而能够正确处理ndJson。
-
while (reader.peek() != JsonToken.END_DOCUMENT): 这是循环读取的核心。
- reader.peek()方法用于查看下一个令牌的类型,而不会实际消费它。
- JsonToken.END_DOCUMENT表示已到达JSON文档的末尾。通过检查下一个令牌是否不是文档末尾,我们可以确定是否还有更多的JSON对象可以读取。
- 注意: 避免使用reader.hasNext()来判断,因为在某些情况下,当到达文档末尾时,hasNext()可能会抛出异常,而不是返回false。peek()方法更加稳健。
- CustomerFeedDTO customerFeedDTO = gson.fromJson(reader, CustomerFeedDTO.class);: 在每次循环中,gson.fromJson()方法会从当前的JsonReader位置开始,解析下一个完整的JSON对象,并将其映射到CustomerFeedDTO实例。
- customerFeedDTOs.add(customerFeedDTO);: 将解析出的DTO对象添加到列表中。
DTO类结构示例
为了完整性,这里提供CustomerFeedDTO的示例结构,它使用了Map
import java.util.ArrayList;
import java.util.Map;
public class CustomerFeedDTO {
// 使用Map来处理结构可能不完全固定的JSON对象
private Map profile;
private Map phone;
// 使用ArrayList来处理JSON数组
private ArrayList> addresses;
private Map orders;
private ArrayList> customs;
// 构造函数 (可选)
public CustomerFeedDTO() {}
// Getters and Setters
public Map getProfile() {
return profile;
}
public void setProfile(Map profile) {
this.profile = profile;
}
public Map getPhone() {
return phone;
}
public void setPhone(Map phone) {
this.phone = phone;
}
public ArrayList> getAddresses() {
return addresses;
}
public void setAddresses(ArrayList> addresses) {
this.addresses = addresses;
}
public Map getOrders() {
return orders;
}
public void setOrders(Map orders) {
this.orders = orders;
}
public ArrayList> getCustoms() {
return customs;
}
public void setCustoms(ArrayList> customs) {
this.customs = customs;
}
@Override
public String toString() {
return "CustomerFeedDTO{" +
"profile=" + profile +
", phone=" + phone +
", addresses=" + addresses +
", orders=" + orders +
", customs=" + customs +
'}';
}
} 实际应用中,建议根据JSON的具体结构定义更具体的Java类,而不是广泛使用Map和ArrayList>,以获得更好的类型安全性和代码可读性。
总结
通过结合Gson库、JsonReader的迭代能力以及setLenient(true)宽松模式,我们可以有效地解析包含多条记录的ndJson文件。关键在于使用while (reader.peek() != JsonToken.END_DOCUMENT)循环逐个读取JSON对象,并将其映射到Java DTO列表中。这种方法不仅解决了只读取第一条记录的问题,也为处理大规模ndJson数据流提供了健壮且高效的解决方案。在实际开发中,请务必处理IOException,并考虑使用try-with-resources来管理文件资源。










