0

0

如何用java实现一个p2p种子搜索的功能

不言

不言

发布时间:2019-04-15 10:20:39

|

4767人浏览过

|

来源于博客园

转载

本篇文章给大家带来的内容是关于如何用java实现一个p2p种子搜索的功能,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。

很多年前对p2p就有很大的兴趣,不过都是停留在理论上,一直没有机会去真正的实践。最近把这个东西实现了一下,从刚开始入手到现在,我觉得有些东西可以分享一下。进入正题吧那就

基本概念

再讲p2p之前,我想先讲一下我们是如何进行下载文件的。我列举一下几种文件下载的方式

1.使用http协议下载,使用的最多的可能就是通过浏览器进行文件的下载。

2.使用ftp下载,ftp有两种模式,一种是port(主动)模式,这种模式客户端会在本地开启一个端口N(>1023)建立ftp连接,然后发送给ftp服务器N+1监听端口用来数据传输,当有防火墙或者客户端被nat的情况下就无法下载。另外一种方式是被动模式(passive),这种模式ftp服务端除了21端口以外会开启一个另外大于1023的端口,也就是说客户端会主动发起ftp连接和数据传输连接,只要ftp服务器开放了这个端口那就不会有问题。

立即学习Java免费学习笔记(深入)”;

上面两种方式可以统称为cs架构,这种架构下面,资源都集中在服务端,当数据量大到一定程度的时候就会出现问题。为了解决这个问题,我们可能会想到分布式去中心化,于是p2p应运而生,p2p即 peer to peer,这是一种对等架构,每个节点既是客服端又是服务端。

p2p架构

当把资源都存储在每个节点上面的时候,我们可能会想,当我下载一个资源的时候 ,那我怎么知道这个文件在那些机器上面能下载呢?

早期的p2p架构中存在一个tracker的角色,这个tracker负责存储文件的元数据信息。那么现在文件会保存在每个peer上面,然后通过tracker获取文件信息。

这种架构下面我们所有的文件都分布式了,只是tracker会负责存储所有文件的元数据信息,所以tracker只需要存储少量数据,相对于存在文件会相对轻松很多了。

但是一旦出现tracker服务器挂了或者服务不可用那么就会导致所有的文件都无法下载,因为它还没有完全的分布式,为了完全的去中心化,后面出来一种trackerless架构,

这个时候不在存在tracker这个东西,所有的文件包括文件的元数据信息都分布式存储。

DHT

DHT(Distributed Hash Table)分布式哈希表,它是用来代替tracker。实现dht的算法有很多,比如Kademlia算法等等。
几个概念:

1.nodeid 在dht网络中每个nodeid都是160bit

2.XOR 两个节点之间的距离使用异或来计算

3.routting table路由表

这里的话还是主要讲实现所以原理这部分的话 网上也有很多资料 大家可以参考看看

如何实现

实现种子搜索分为两步,第一步是爬虫,用来爬取网上的种子信息,第二步是加入搜索。

需要具备以下知识:种子,bittorrent dht 协议,bencoded

提到p2p不得不提种子,就是那种.torrent结果的那种文件,大家可能都是用过bt种子下载过文件,下载文件使用的是bittorrent协议。那么如何收集网络上面的种子呢?

bt种子包含的主要字段:戳:https://segmentfault.com/a/1190000000681331

在dht中获取的种子叫trackerless torrent,没有announce这个属性,但是会有nodes属性来代替。官方建议不要router.bittorrent.com把这个添加到种子里面,也不要添加到路由表。

1.如何从dht中获取种子

如果想要得到种子信息,那么必须要对DHT Protocol深入了解,bep_0005描述了DHT Protocol

具体可以戳这里 http://www.bittorrent.org/beps/bep_0005.html

如何实现一个路由表:

路由表覆盖了所有Node的id,从0到2的160次方。路由表可以由bucket组成,每个bucket覆盖了所有node的一部分。

BJXSHOP网上购物系统 - 书店版
BJXSHOP网上购物系统 - 书店版

BJXSHOP购物管理系统是一个功能完善、展示信息丰富的电子商店销售平台;针对企业与个人的网上销售系统;开放式远程商店管理;完善的订单管理、销售统计、结算系统;强力搜索引擎支持;提供网上多种在线支付方式解决方案;强大的技术应用能力和网络安全系统 BJXSHOP网上购物系统 - 书店版,它具备其他通用购物系统不同的功能,有针对图书销售而进行开发的一个电子商店销售平台,如图书ISBN,图书目录

下载

刚开始一个路由表只有一个bucket,覆盖了所有的nodeid。每个bucket,只能hold最多K个nodes,当前这个K值是8。如果bucket已经满了,并且里面的node都是好的,而且自身的nodeid不在这个bucket里面,那么就讲原来的bucket分成两个新的bucket,分别覆盖0..2159和2159..2160

当一个bucket已经满了的时候,新node很容易被丢弃,如果这里面的node掉线了,那么就会被replace。如果一个节点最近15分钟都没有ping过,那么就对这个节点发起ping,如果没有返回response,那么这个节点也会被replace。

每一个bucket应该有一个last changed属性,用来表明这个bucket的活跃度。这几种情况会更新这个字段:

1.bucket里面的node被ping了并且有response

2.一个node添加到了这个bucket里面

3.bucket里面的node被replace了

bucket在15分钟之内没有更新这个字段的话 ,那么就会随机选取一个在该bucket范围内的id,做find_node操作。

KRPC Protocol

dht网络中通过KRPC Protocol来传递消息。

1.ping

ping查询主要用来心跳检查

2.find_node

查找一个节点,对方会从自己的路由表中查询最近的N个节点返回,一般是8个

3.get_peers

根据infohash查找拥有该infohash的peer,如果查到到返回peers,没有查找到返回nodes

4.announce_peer

告诉其他的peers,自己也拥有infohash。

注意以上四个都会刷新路由表

一开始路由表里面没有任何节点,所以需要从超级节点(例如dht.transmissionbt.com等等)通过find_node请求来查找并添加节点,返回的节点在进行find_node。

我自己实现的路由表稍微和上面描述的不太一样。

dht网络中采用udp进行数据传输,所以我只用开启一个upd端口不断的发送find_node请求建立路由表,然后通过get_peers和announce_peer来获取种子的infohash。

当我们加入dht网络后,通过上面介绍的四个方法只能得到种子文件的infohash,所以我们还需要通过infohash来下载种子,具体可以参照bep_009http://www.bittorrent.org/beps/bep_0009.html

我们主要通过bep_009来获取种子的名字字段,获取了文件名字段就可以根据名字和infohash来建立索引提供搜索。(这里主要构建磁力链接,有了磁力链接就可以去迅雷,百度网盘等去下载资源啦

大部分磁力链接格式:magnet:?xt=urn:btih:infohash

上面介绍的方式是通过获取infohash来构建磁力链接,再借助第三方软件下载,当然也可以自己通过BitTorrent Protocol来下载,有兴趣的可以自行研究。

好了,上面只是简单的介绍了一些实现的步骤,很多细节和具体实现的话没有提到,我自己的话,参考了一些github dht的项目,然后自己实现了一下具体地址如下:https://github.com/mistletoe9527/dht-spider

相关文章

java速学教程(入门到精通)
java速学教程(入门到精通)

java怎么学习?java怎么入门?java在哪学?java怎么学才快?不用担心,这里为大家提供了java速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

404

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

249

2023.10.07

github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

3595

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

487

2023.08.14

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

487

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

448

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

3345

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2828

2024.08.16

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

19

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Kotlin 教程
Kotlin 教程

共23课时 | 4.1万人学习

C# 教程
C# 教程

共94课时 | 10.7万人学习

Java 教程
Java 教程

共578课时 | 77.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号