如何使用RDD.sum（）从pyspark中的文本文件中查找RDD中特定单词的总计数_Pyspark_Substring_Rdd - Fatal编程技术网

如何使用RDD.sum（）从pyspark中的文本文件中查找RDD中特定单词的总计数

pyspark

如何使用RDD.sum（）从pyspark中的文本文件中查找RDD中特定单词的总计数,pyspark,substring,rdd,Pyspark,Substring,Rdd,我有一个文本文件 123 Twinkle twinkle littlestar and moon 124 Twinkletwinkle little star and star 125 Twinkle twinkle littlestar and star 126 Twinkletwinkle little star and moon 127 Twinkle twinkle littlestar and moon 128 Twinkletwinkle little star and star 1

我有一个文本文件

123 Twinkle twinkle littlestar and moon
124 Twinkletwinkle little star and star
125 Twinkle twinkle littlestar and star
126 Twinkletwinkle little star and moon
127 Twinkle twinkle littlestar and moon
128 Twinkletwinkle little star and star
129 Twinkle twinkle littlestar
130 Twinkletwinkle little star

假设我想知道“星”在文件中作为一个单词出现了多少次，而不是像littlestar那样作为子字符串出现。还有一些线条具有多重外观。我想找到每行中作为单词的外观计数，然后使用rdd.sum（）求和

上面的代码给出了以星号作为单词或子字符串的行数，两者都是8

我希望以这样的方式输出，它将在最后执行以下内容

count_list=[0,2,1,1,0,2,0,1] #"star"counts in each line as word
rdd=sc.parallelize(count_list)
rdd.sum()
>> 7

以下是一种方法：

textFile = spark.read.text('sample.txt')

textFile.rdd.map(lambda x: x[0].split(' ').count('star')).sum()

7

当我从pyspark import SparkConf，SparkContext sc=SparkContext.getOrCreate（）test=sc.textfile（'test.txt'）和do

test.map（lambda x:x[0].split（''）.count（'star'）.sum（）读取如下文本文件时，我想知道为什么它不起作用。很高兴它有帮助，你用的是哪个版本？我用的是2.4.4不确定，不知道确切的原因。我经常使用spark会话来读取txt、csv文件。
textFile = spark.read.text('sample.txt')

textFile.rdd.map(lambda x: x[0].split(' ').count('star')).sum()

7




[frameworks]相关文章推荐



                                                        
Frameworks Cocos2d中的棋盘游戏设计
frameworkscocos2d-iphone 
Frameworks 如何在Yii上托管多个应用程序
frameworksyii 
Frameworks QUnit的替代方案
frameworks 
Frameworks 将OCMock添加到框架中
frameworks 
Frameworks 如何使用Play将多个表单元素绑定到单个变量！框架
frameworksplayframework 
Frameworks 已安装并启动OSGI捆绑包，但没有可见的输出
frameworksosgi 
Frameworks 编辑iOS 7的可扩展屏蔽框架
frameworksios7arduino 
Frameworks 游戏开发框架的选择
frameworkscocos2d-x 
Frameworks 如何将我的网站导入Kitsune
frameworks 
Frameworks 如何在两个自定义iOS框架中添加依赖项？
frameworksdependencies 
                                       





随机文章推荐



                                                        
Events Flex实际CreationComplete事件
eventsapache-flex 
Events 关键点预览和接受按钮
events 
Events 读取谷歌日历值
eventsgroovygoogle-calendar-api 
Events 处理选择dropdownlist和后续事件中的第一项
eventsdrop-down-menu 
Events NSTextView值已更改
events 
Events ColdFusion点击事件？
eventscoldfusion 
Events 如何在Ember.js中直接将事件绑定到现有HTML，而不使用任何类型的视图？
eventsbindingember.js 
Events 子元素的Prototype.js event.target.id
events 
Events 如何使用PostConstructApplicationEvent初始化应用程序范围的托管Bean？
eventsjsf-2 
Events AngularJS：如何在承诺完成后防止事件的default（）？
eventsangularjs 
Events EasyUI datagrid发送不需要的请求
events 
Events 应用期间引发的CQRS事件
eventsdomain-driven-design 
Events 连续查询的Cassandra（+；Spark？）的最佳方法？
eventscassandraapache-spark 
Events 如何在编写VS2012加载项时检测visual studio的当前实例是否处于活动状态？
eventsvisual-studio-2012 
Events 在对F中的事件作出反应时从列表中获取下一个值#
eventsf# 
Events 如何通过websocket向客户端发送事件火灾数据
eventsasp.net-corewebsocket 
Events Firebase分析。无法将自定义参数添加到事件
events 
Events dropzone.js和autoProcessQueue=false，事件不工作
eventsfile-upload 
Events 事件驱动体系结构中的主题粒度
eventsarchitecture 
Events 如何为Google Analytics事件跟踪创建if/else语句
events


                                        

                                        
                                        


                                                
                                                        [pyspark]相关推荐
                                                        
pyspark中两个数据帧列之间的差异
									Pyspark
							 
PySpark：如何停止零活动任务的执行者？
									Pyspark
							 
pyspark中的案例总数
									Pyspark
							 
Pyspark警告消息和无法'；不要连接SparkContext
									Pyspark
							 
Pyspark使用withColumn将派生列添加到数据帧
									Pyspark
							 
Pyspark pypark中的Dataframe-如何将聚合函数应用到两列中？
									Pyspark
							 
Pyspark 无法在数据块上导入sparknlp
									Pyspark
							 
在pyspark中，如何将/concat字符串添加到列中？
									Pyspark
							 
Pyspark 广义线性激励中的Beta约束
									Pyspark
							 
使用Jupyter笔记本设置PySpark内核的spark.app.name
									Pyspark
							 									Jupyter Notebook
							 
Pyspark 火花：指望一个毫秒不工作的窗口
									Pyspark
							 
Pyspark 对分组数据使用Pypark插补器
									Pyspark
							 
Pyspark从数据类型为Boolean的数据框中获取列的名称
									Pyspark
							 
为什么添加到拼花地板表的新列不能从glue pyspark ETL作业中获得？
									Pyspark
							 
将环境变量传递给Livy/PySpark作业
									Pyspark
							 
如何在python的.CSV或.XLSX文件中高效导出使用pyspark生成的关联规则
									Pyspark
							 
Pyspark Pypark聚合
									Pyspark
							 
Pyspark：如何查找前5行值并将其转换为1，将其余所有值转换为0？
									Pyspark
							 
rdd pyspark/python上flatmap中的处理错误
									Pyspark
							 
如何在Pyspark中将两个数据集合并为一个
									Pyspark
							 
在使用pyspark的情况下如何使用for循环？
									Pyspark
							 
pyspark rdd拆分问题
									Pyspark
							 
Pyspark 如何连接两个数据帧并从数据帧中减去两列
									Pyspark
							 
是否有任何pyspark方法可以读取具有不同头的多个文件
									Pyspark
							 
Pyspark AWS Glue CDK-创建作业类型Spark（Glue 2.0）
									Pyspark
							 
                                                        
                                                

                                                
                                                        Tags
                                                        
Select
Pycharm
Plot
Ruby On Rails 3
Codeigniter
Lambda
C#
Mariadb
Symfony
Google Plus
Internet Explorer 8
Apache Zookeeper
Libgdx
Usb
Reactjs
Phpmyadmin
Netty
Perforce
Debian
Ibm Mobilefirst
Jquery Mobile
Nlp
Amazon Dynamodb
Web Applications
Triggers
Error Handling
Wix
Compiler Errors
Jersey
Entity Framework Core
Marklogic
Validation
Boost
Lotus Notes
Visual C++
Angular Material
Ios6
Titanium
Login
Http
Oracle10g
Ibm Mq
Less
Django Rest Framework
Hibernate
Ubuntu
Sonarqube
Adobe
Google Visualization
Ios5
Linq
Grep
X86
Windows 7
Amazon Ec2
Youtube Api
Qt
Image
Zurb Foundation
Notepad++
Apache Kafka
Joomla
Terraform
Kubernetes
Vagrant
Import
Compiler Construction
Graphics
Printing
Grafana
Z3
Apache Flex
Wolfram Mathematica
Shiny
Gatsby
Gtk
Asp.net Mvc 5
Xamarin.android
Github
Svn
Gradle
Maps
Sms
Pip
Project Management
Gis
Data Structures
Yaml
Documentation
Math
Heroku
Responsive Design
Nuget
Dojo
Dependencies
Django Models
Dependency Injection
Cassandra
Paypal
View
Sencha Touch
Reference
Shopify
Stanford Nlp
Date
Embedded
Graphql
Qt4
Checkbox
Vb.net
Tfs
Windows Store Apps
Keycloak
Mercurial
Visual Studio 2015
Netsuite
Openid
Jhipster
Android Fragments
Asynchronous
Azure Devops
Navigation
Php
Laravel 5
Facebook
Openstack
Quickbooks
User Interface
Git
Core Data
Sql Server 2005
Selenium Webdriver
File Upload
Safari
Mediawiki
Networking
Xpages
Ag Grid
Sphinx
Cocos2d X
Rx Java
Sublimetext3
Input
File
Magento2
Ada
.net
Outlook
Spring Security
Composer Php
Asp.net
Opencl
Oop
Operating System
Twitter
Orchardcms
Mvvm
Prolog
Gwt
Webgl
Openlayers 3
Formatting
Octave
Architecture
Actions On Google
Command Line
Silverlight
Google Sheets
Jboss
Aws Lambda
Websphere
Applescript
Camera
Windows Runtime
Jquery Ui
Sharepoint
Smtp
Amazon Cloudformation
Sockets
Monitoring
Vmware
Apache Spark
Office Js
Azure Functions
Forms
Variables
Redirect
Office365
Delphi
Electron
Visual Studio 2008
Kernel
Computer Science
Azure Active Directory
Air
Sas
Artificial Intelligence
Scikit Learn
Codenameone
Jquery
Sap


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网