Java 大规模处理以在非常大的字符串列表中查找唯一的最长单词？_Java_Hadoop_Mapreduce_Distributed - Fatal编程技术网

Java 大规模处理以在非常大的字符串列表中查找唯一的最长单词？

java hadoop mapreduce

Java 大规模处理以在非常大的字符串列表中查找唯一的最长单词？,java,hadoop,mapreduce,distributed,Java,Hadoop,Mapreduce,Distributed,我正在输入列表中查找最长的非重复字符串。代码是。我的问题是假设输入列表太大，无法放入内存如果输入不能放入内存中，如何解决这个问题（比如说输入是一篇新闻报道中永无止境的一串单词）是否可以/如果可以，如何使用Hadoop/Map reduce概念（任何url都受欢迎）输入列表不需要保留在内存中：您不能将其流式输入吗关于使用MapReduce执行此类任务，请看一看。如果输入太大，无法放入内存，则有两种选择： 1）委托给数据库或其他基于磁盘的结构。这将花费大量的时间和资源，但你会得到一个准确的

我正在输入列表中查找最长的非重复字符串。代码是。我的问题是假设输入列表太大，无法放入内存

如果输入不能放入内存中，如何解决这个问题（比如说输入是一篇新闻报道中永无止境的一串单词）

是否可以/如果可以，如何使用Hadoop/Map reduce概念（任何url都受欢迎）

输入列表不需要保留在内存中：您不能将其流式输入吗

关于使用MapReduce执行此类任务，请看一看。

如果输入太大，无法放入内存，则有两种选择：

1）委托给数据库或其他基于磁盘的结构。这将花费大量的时间和资源，但你会得到一个准确的答案

2）使用概率方法，如a，这是一种概率方法。这将与Map Reduce配合使用，如下所示：

将输入的

元组映射到

元组，其中

单词

是尚未重复的最长单词，而

布鲁姆过滤器

是迄今为止发现的所有单词的概率表示

然后，在组合两个

bloom\u过滤器之前，您可以通过比较两个单词的长度来减少两个
元组，并将每个元组与另一个bloom\u过滤器的长度进行比较。注意，这可能会导致没有最长的单词
-这是非常有效的，从（dog，dog，plant，plant）
的输入案例中可以看出，您是否有兴趣得到一个不使用Hadoop/map reduce的答案？




[hadoop]相关文章推荐



                                                        
Hadoop-“代码移动到数据附近进行计算”
hadoopmapreduce 
用于hadoop的Dumbo mapreduce
hadoopmapreduce 
Hadoop 配置单元更新列中的所有值
hadoophive 
Hadoop 0.20：“作业设置”任务
hadoop 
Hadoop hortonworks沙箱中的清管器错误
hadoopapache-pig 
Hadoop作业文档数据库依赖项jar文件
hadoopazure-cosmosdb 
Hadoop 配置单元到HFile创建问题：MapR
hadoophbase 
Hadoop 如何更改HDFS中的数据块分配算法？
hadoop 
“$HADOOP\u HOME/bin/HADOOP logs”命令无效
hadoop 
在Uubtu for hadoop中运行start-all.sh命令时，作业跟踪器和任务跟踪器不会出现问题
hadoop 
Hadoop hive serde-输入格式必须实现InputFormat
hadoophive 
Hadoop hbase索引器solr numFound与hbase表行大小不同
hadoopsolrhbase 
Hadoop 配置单元：删除数据库
hadoophive 
                                       





随机文章推荐



                                                        
使用锚定而不是提交（post）
poststruts2hyperlink 
Symfony：缓存POST方法
postcachingsymfony1 
Post 将来自FoxPro的CSV发布到url
post 
Post 使用restlet登录google的授权头
post 
将HttpPostRequestDecoder与Netty 3.x一起使用
postnetty 
Post Nutch和Http后身份验证？
post 
Post Google Search Appliance错误-ProcessNode:不包含有效的主机，正在跳过带有url的记录
post 
Post 是否可以通过复选框将子数组作为数组传递到另一个页面？
postcheckbox 
Post Drupal:$\发布和菜单\回调。如何工作？
postdrupal-7 
Arduino POST vs GET请求
postarduino 
Post Tumblr-仅对主页禁用photoset
post 
Apigee-如何使用Apigee API开发平台使用POST方法发送XML有效负载
post 
Post 剑道UI-Datagrid，如何向请求添加其他参数？
postkendo-ui 
Post 使用android截取的Webview url控件
post 
Yii2如何调用post函数
postyii2 
nginx重写POST请求
postnginxurl-rewriting 
使用VB.Net发送Post请求
post 
我可以在哪里发送post请求（任何服务）以从中获得回复，并测试我的API是否工作？
postweb 
history.pushState：发送POST参数
post 
Post PayPal标准的CORS和createPayment错误
postwoocommercepaypalcors


                                        

                                        
                                        


                                                
                                                        [java]相关推荐
                                                        
在Java中使用动态名称分配变量
									Java
							 									Variables
							 
Java 如何使用LingPipe工具提取阿拉伯语命名实体
									Java
							 									Nlp
							 
Java http请求的500毫秒延迟
									Java
							 									Http
							 									Networking
							 									Tcp
							 									Jetty
							 
Java 使用@Autowired注释注入bean时出现空指针异常
									Java
							 									Spring
							 									Spring Mvc
							 
java在ubuntu和windows上处理数据包的方式不同吗
									Java
							 									Ubuntu
							 									Openssl
							 
Java ReferenceError:未定义db"；
									Java
							 									Javascript
							 									Mongodb
							 
Java 为什么Orika将嵌套列表中未使用的字段映射为空？
									Java
							 
Java Admob和笨拙的Libgdx显示行为
									Java
							 									Android
							 									Mobile
							 									Libgdx
							 
Java android filewriter错误和应用程序退出
									Java
							 									Android
							 
“线程中的异常”；AWT-EventQueue-0“；java.lang.NullPointerException
									Java
							 									Exception
							 
Java 重载JNI方法
									Java
							 
Java 使用Spark创建邻居矩阵[`cartesian（）`issue]
									Java
							 									Hadoop
							 									Apache Spark
							 
Android Studio Java EditText包含单词
									Java
							 									Android
							 									Android Studio
							 
Java 从Twitter流式传输restapi的结果
									Java
							 									Rest
							 
Java 部署在远程计算机上时Tomcat服务器不工作
									Java
							 									Tomcat
							 									Ssh
							 									Server
							 
Java 如何改进我的处理节奏游戏原型？
									Java
							 									Javascript
							 									Processing
							 
Java 如何使用swagger doclet将@apimplicitparam添加为doclet选项？
									Java
							 									Maven
							 									Swagger
							 
了解Java中计算BigInteger平方根的基本逻辑/数学
									Java
							 
Java 集群的一个Kafka代理关闭时发生ConnectException
									Java
							 									Apache Kafka
							 
Java Jackson序列化到无法序列化的字段的报告列表
									Java
							 
Java 类似番石榴的东西'；s加载缓存，但双向？
									Java
							 									Caching
							 
Java 具有group by和having的Querydsl变换
									Java
							 									Sql
							 
ApacheKafkaServer从Java创建报告器
									Java
							 									Scala
							 									Clojure
							 									Apache Kafka
							 
Java 关于字符串常量池
									Java
							 
Java中不使用笔划的虚线
									Java
							 									Graphics
							 
Java 如何按Firebase数据库的升序对数据进行排序
									Java
							 									Android
							 									Firebase
							 
从Java中的deque获取映射键列表
									Java
							 									Dictionary
							 									Data Structures
							 
Java 使用抽象类和super（）
									Java
							 
“最合适”；2D"；在Java中并排存储字符串和双值的表示法？
									Java
							 									Arrays
							 
如何配置intellij以创建简单的java项目
									Java
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Tsql
Biztalk
Installation
Big O
Dynamic
EmptyTag
Sphinx
Visual Studio
Cygwin
Loopbackjs
Apache Storm
Mule
Wix
Oauth 2.0
Meteor
Sockets
Makefile
Continuous Integration
Synchronization
Clearcase
Tfs
Uml
Clang
Swiftui
Grafana
Serial Port
Ms Access
Windows Phone
Github
Sms
3d
Electron
Domain Driven Design
Button
Deep Learning
Rxjs
Operating System
Primefaces
Plone
Woocommerce
Outlook
Hibernate
Coffeescript
Prestashop
Google Plus
Ruby
Openssl
Cocoa
Firebase
Tree
Join
Functional Programming
Rest
Reference
Text
Usb
Discord.js
Logic
Sitecore
Ionic Framework
Actions On Google
Hbase
Cryptography
Sql Server 2008 R2
Input
Hyperledger Fabric
Google Calendar Api
Imagemagick
Pentaho
For Loop
Animation
Objective C
Visual Studio 2010
Asp.net Core
Google Api
Iis
Visual Studio 2008
Asp Classic
Netlogo
Jetty
Maps
Triggers
Tridion
Utf 8
Drupal
Javascript
Jvm
Sublimetext3
Apache2
Acumatica
Kibana
Time
Checkbox
Graphviz
Fluent Nhibernate
Libgdx
Kubernetes
Cloud
Ios8
Mono
Crystal Reports
Dask
Highcharts
Linux Kernel
Xamarin.android
Zsh
Instagram
Arrays
Install4j
Youtube Api
Xpath
Blackberry
Mod Rewrite
Sublimetext2
Emacs
Keras
Opencart
Python
Ssis
Routes
Xampp
Gps
Ipython
Dom
Webpack
Cocoa Touch
Yaml
Three.js
D
Colors
Pagination
Powershell
Couchbase
Liferay
Tomcat
Docker
Entity Framework
Rust
Ocaml
Graphql
Maven 2
Jsp
Azure Active Directory
Memory
Camera
Documentation
Azure Functions
List
C++
Xamarin
Qt4
Bluetooth
Wso2
Menu
Android Fragments
Pdf
Path
Apache Kafka
Blazor
Image
Tags
Protractor
Batch File
Java 8
Spring Integration
Session
Unicode
Ide
Akka
Replace
Parallel Processing
Charts
Java
Boost
Mysql
Exchange Server
Jupyter Notebook
Db2
Sharepoint
Prometheus
Azure Service Fabric
Programming Languages
Soap
Windbg
Gdb
Sql
Web Scraping
Zurb Foundation
Linux
Jaxb
Playframework 2.0
Excel Formula
Twilio
Collections
Jestjs
Lua
Amazon Cloudformation
Aframe
Sdk
Tcp
Plot


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网