Apache spark 火花“；在“之前修改”；从文件中读取数据时的选项_Apache Spark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 火花“；在“之前修改”；从文件中读取数据时的选项_Apache Spark_Apache Spark Sql_Spark Streaming - Fatal编程技术网

Apache spark 火花“；在“之前修改”；从文件中读取数据时的选项

apache-spark

Apache spark 火花“；在“之前修改”；从文件中读取数据时的选项,apache-spark,apache-spark-sql,spark-streaming,Apache Spark,Apache Spark Sql,Spark Streaming,我正在使用Spark-2.4从hadoop读取文件。要求是读取修改时间早于某个提供值的文件我偶然看到spark文档，其中提到了在之前修改的选项，请参考以下spark文档，但我不确定spark 2.4中是否提供该选项，如果没有，我如何实现这一点？自Spark 3+以来，选项modifiedBefore和modifiedBefore都可用，只能批量使用，不能流式处理。对于Spark 2.4，您可以使用Hadoop文件系统方法，并使用getModificationTime过滤文件下面是一个函数示

我正在使用Spark-2.4从hadoop读取文件。要求是读取修改时间早于某个提供值的文件

我偶然看到spark文档，其中提到了在之前修改的选项

，请参考以下spark文档，但我不确定spark 2.4中是否提供该选项，如果没有，我如何实现这一点？
自Spark 3+以来，选项modifiedBefore
和modifiedBefore
都可用，只能批量使用，不能流式处理。对于Spark 2.4，您可以使用Hadoop文件系统方法，并使用getModificationTime
过滤文件
下面是一个函数示例，该函数采用路径和阈值，并返回使用阈值筛选的文件路径列表：
import org.apache.hadoop.fs.Path
def getFilesModifiedBefore（路径：路径，modifiedBefore:String）={
val format=new java.text.simpleDataFormat（“yyyy-MM-dd'T'HH:MM:ss”）
val thresHoldTime=format.parse（modifiedBefore）.getTime（）
val files=path.getFileSystem（sc.hadoopConfiguration）.globStatus（path）
files.filter（u.getModificationTime

然后将其与spark.read.csv一起使用：
val df=spark.read.csv（getFilesModifiedBefore（新路径（“/mypath”），“2021-03-17T10:46:12”）：*）




[seo]相关文章推荐



                                                        
Seo “会不会？”；“现场停工待维修”；分页符搜索引擎优化？
seo 
Seo 命名URL而非MVC的Web路由最佳实践
seo 
Seo 偷偷摸摸的搜索引擎优化解决方案
seo 
Seo 用户代理字符串是否必须与服务器日志中显示的完全相同？
seo 
Seo schema.org搜索结果页面的标记
seo 
Seo 从google和yahoo中删除子域
seo 
Seo 告诉搜索引擎不要跟踪链接
seo 
Seo 搜索引擎优化-谷歌索引链接的特定部分
seo 
Seo 如何避免多个页面使用相同的内容和关键字，而只关注母版页
seo 
Seo 如何从Google搜索索引中删除文件夹及其子页面
seo 
Seo 更改CMS后，谷歌网站管理员出现404错误
seo 
Seo 我的网站页面在谷歌中没有索引
seo 
Seo Umbraco 7搜索引擎优化标签
seoumbraco 
                                       





随机文章推荐



                                                        
Asp.net core mvc ASP.NET 5 MVC 6-登录用户
asp.net-core-mvc 
Asp.net core mvc 为什么在我将其投影到SelectItemList之前，多对多在实体链接查询中是可见的？
asp.net-core-mvcentity-framework-core 
Asp.net core mvc 在.Net Core 3.1中未识别视图组件标记辅助对象
asp.net-core-mvc


                                        

                                        
                                        


                                                
                                                        [apache spark]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
Redirect
Xaml
Transactions
Protractor
Enums
Azure Ad B2c
Marklogic
Compression
C++11
Resharper
Lucene
Oracle11g
Google Maps Api 3
Time
Blazor
Hive
Ruby On Rails
Spring Batch
Function
Php
Dialogflow Es
Ionic2
Io
Ruby On Rails 3.1
Jupyter Notebook
Reflection
Openid
List
Websphere
Time Complexity
Amazon Redshift
Angular6
Linkedin
Continuous Integration
Plone
Jquery
Mvvm
Vue.js
Linq To Sql
Heroku
Inno Setup
Lotus Notes
File Upload
Log4j
Drop Down Menu
Tableau Api
Ldap
Drupal 6
Sdk
D
Github
Calendar
Mapbox
Visual Studio Code
Xamarin.ios
Selenium Webdriver
Openlayers 3
Html
Composer Php
Keyboard
Search
Angular
Sprite Kit
Seo
Unit Testing
Rally
Ant
Autocomplete
Button
Firefox
Kibana
Ada
Rx Java
Jwt
Oauth
Spring
Microservices
Parse Platform
Phantomjs
Boost
React Native
Arm
Filesystems
Logic
Dataframe
Oracle Apex
Excel Formula
Windows Phone
Exchange Server
Url Rewriting
Git
Date
Ssl
Blackberry
Mono
Character Encoding
Authentication
Apache Nifi
Delphi
Neural Network
Exception Handling
Shiny
Youtube
Z3
Reporting Services
Curl
Mapping
Common Lisp
Selenium
Windows
Cypress
System Verilog
Asterisk
Entity Framework
Model View Controller
Sitecore
Ibm Midrange
Collections
Typo3
Outlook
Stored Procedures
Lua
Speech Recognition
Cassandra
Single Sign On
Scala
Compiler Errors
Grep
Download
Validation
Applescript
Liferay
Drupal
Chef Infra
Networking
Compilation
Tsql
Rest
Vb6
Docker
Notepad++
Ionic Framework
Jestjs
Ip
Ios7
Yocto
Css
Keycloak
Svn
Chart.js
Primefaces
Charts
Interface
Air
Aurelia
Google Apps Script
Struct
Sqlalchemy
Javafx 2
Socket.io
Wso2
String
Matrix
Javascript
Qt
Webview
Indexing
Regex
Stata
Actionscript
Jekyll
Mediawiki
Fortran
Bluetooth
Openerp
Coding Style
Syntax
Django Rest Framework
Gdb
Macos
Ssas
Mpi
Here Api
Layout
C# 3.0
C++ Cli
Asp.net
Intellij Idea
Scrapy
Monitoring
Awk
Embedded
Python 2.7
Log4net
Nativescript
Compiler Construction
Encoding
Sql Server
Mqtt
Hybris
Datetime


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网