Toni Cebrián
Verified Expert in Engineering
Machine Learning Developer
难得的数据科学家和数据工程师的结合体, Toni能够领导项目从概念和原型到在云中大规模部署.
Portfolio
Experience
Availability
Preferred Environment
Linux
The most amazing...
...我曾在当地的Scala聚会小组中使用Scala教授一个类型类讲座.
Work Experience
Consultant
Self-employed
- 使用气流将比特币图摄取到Neo4J数据库中,定期抓取包含比特币交易的BigQuery表.
- 在Python中创建asyncio网络爬虫来抓取具有新闻价值内容的网站.
- 维护和发展Scala和Haskell的SDK,用于访问使用这些语言的客户的web api.
- 创建了一个工具,用于将包地址转换为无服务器架构中的不同路由区域.
Data Engineering Consultant
Walletconnect
- 定义了将原始WebSocket数据摄取到S3数据湖中的数据管道.
- 创建数据仓库,将数据湖中的数据读取到Athena中的星型模式中. Moving data was done through DBT models.
- 为利用仓库中的数据创建了所有指示板和数据定义.
Full-stack Data Engineer
Greeneffort
- 定义、研究并决定在发票中执行OCR的提供者. 创建数据管道,通过OCR从系统中移动发票,并最终将元数据留在DB中.
- 为前端创建了整个服务器架构,使用Akka HTTP作为REST API,使用Slick作为DB访问. 不同的服务位于一个GKE集群中.
- 创建一个本体,用于将不同产品的生命周期影响评估(LCIA)映射到我们的内部数据定义,从而允许对不同产品对二氧化碳消耗的影响进行更丰富的查询.
Semantic Web Consultant
Dow Jones and Company
- 为美国破产领域的数据建模开发了本体. 基础是公共核心本体,它被扩展以容纳所有其他概念.
- 创建了一个编译器,该编译器读取带有模式定义的OWL文件,并创建了Scala代码以编程方式进行管理,并对该本体中的概念进行了完整的类型化.
- 实现了云数据流管道,可以读取Dow Jones的大量文章, processed them, 并将语义数据摄取到语义数据存储中.
Lead Data Engineer
Nansen
- 负责实现南森仓库里的dbt模型.
- 与区块链ETL库合作,分析如何将不同区块链的数据摄取到原始数据湖中.
- 使用图表DB TigerGraph进行不同的数据分析,以跟踪2018年一些ETH在一个着名骗局中的去向.
Lead Data Engineer
Coinfi
- 在Google Cloud中使用气流与Composer创建ETL编排系统.
- 创建了获取加密数据(价格)的抓取服务, events, and news) to ingest into the platform.
- 建立dbt模型来报告BigQuery数据集中公开可用的区块链数据.
Head of Data Science
Stuart
- 使用Redshift设计公司的数据仓库.
- 创建预测模型,预测司机登录平台和交付服务.
- 为复杂事件处理设计了一个事件溯源系统.
- 部署路线优化算法,根据路线和包裹大小选择司机.
- 从零开始创建了数据科学团队, led the hiring process, created role definitions, and established OKRs.
Chief Data Officer
Enerbyte
- 架构从物联网设备获取数据的基础设施.
- 研究了单测点能量分解算法.
- 从零开始创建了数据科学团队, leading the hiring process, role definitions, and quarterly OKRs.
Head of Data Science
Softonic
- 创建了一个基于应用评论文本内容的推荐系统.
- 使用机器学习和Solr开发了一个改进的搜索引擎.
- 从零开始创建了数据科学团队. 聘请所有相关人员,建立okr和管理任务.
Experience
Type Classes Talk
http://github.com/tonicebrian/typeclasses-talkEducation
人工智能硕士学位
加泰罗尼亚理工大学-巴塞罗那,西班牙
金融产品定量技术研究生学位
加泰罗尼亚理工大学-巴塞罗那,西班牙
Certifications
Cloudera Certified Hadoop Professional
Cloudera
Skills
Libraries/APIs
Spark Streaming, Pandas, NumPy, PubSubJS, Python Asyncio, TensorFlow, XGBoost, Stanford NLP, OpenAPI, Slick
Tools
Apache Airflow, Cloud Dataflow, Apache Beam, Amazon Athena, Solr, Apache Avro, Protégé, Google Kubernetes Engine (GKE), AWS Glue, BigQuery
Frameworks
Spark, Akka, Hadoop
Languages
Python, Python 3, Scala, SQL, RDF, Haskell, c++, OWL
Paradigms
函数式编程,数据科学,响应式编程
Platforms
谷歌云平台(GCP)、Apache Kafka、Linux、Kubernetes、亚马逊网络服务(AWS)、区块链
Storage
Redshift, Cassandra, PostgreSQL, Google Cloud, Redis, Neo4j, Amazon S3 (AWS S3)
Other
Machine Learning, Akka HTTP, Data Mining, Data Engineering, Technical Leadership, Leadership, Consulting, Mentorship & Coaching, Google BigQuery, Big Data, Artificial Intelligence (AI), Crypto, NEO, Data Flows, Recommendation Systems, Word2Vec, Semantic Web, Web Scraping, Natural Language Processing (NLP), Deep Learning, Financial Modeling, Monte Carlo Simulations, Time Series, Data Build Tool (dbt), TigerGraph, Stardog, RDFox, Ontologies, OCR, Invoice Processing
How to Work with Toptal
在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.
Share your needs
Choose your talent
Start your risk-free talent trial
Top talent is in high demand.
Start hiring