Toni is available for hire

Toni Cebrián

Verified Expert in Engineering

Machine Learning Developer

Location

Barcelona, Spain

Toptal Member Since

February 4, 2019

难得的数据科学家和数据工程师的结合体, Toni能够领导项目从概念和原型到在云中大规模部署.

Portfolio

Self-employed

谷歌云，加密，Python, Scala，数据科学，推荐系统...

Walletconnect

Python 3, Apache气流，数据构建工具(dbt)，亚马逊雅典娜...

Greeneffort

Scala, OpenAPI, OCR, Google Cloud, Semantic Web, Invoice Processing, Kubernetes...

Experience

Machine Learning - 10 years SQL - 10 years Functional Programming - 10 years Haskell - 10 years Data Science - 10 years Scala - 8 years Python 3 - 6 years Akka - 4 years

Availability

Part-time

Preferred Environment

Linux

The most amazing...

...我曾在当地的Scala聚会小组中使用Scala教授一个类型类讲座.

Work Experience

Consultant

2019 - PRESENT

Self-employed

使用气流将比特币图摄取到Neo4J数据库中，定期抓取包含比特币交易的BigQuery表.
在Python中创建asyncio网络爬虫来抓取具有新闻价值内容的网站.
维护和发展Scala和Haskell的SDK，用于访问使用这些语言的客户的web api.
创建了一个工具，用于将包地址转换为无服务器架构中的不同路由区域.

Technologies: 谷歌云，加密，Python, Scala，数据科学，推荐系统, Data Engineering, Semantic Web, Machine Learning, Neo4j, TigerGraph, SQL, Akka, Haskell, Functional Programming, Pandas, NumPy, C++, Google Cloud Platform (GCP), Technical Leadership, Consulting, Mentorship & 培训，谷歌BigQuery，大数据，PostgreSQL

Data Engineering Consultant

2022 - 2023

Walletconnect

定义了将原始WebSocket数据摄取到S3数据湖中的数据管道.
创建数据仓库，将数据湖中的数据读取到Athena中的星型模式中. Moving data was done through DBT models.
为利用仓库中的数据创建了所有指示板和数据定义.

Technologies: Python 3, Apache气流，数据构建工具(dbt)，亚马逊雅典娜, Amazon S3 (AWS S3), Amazon Web Services (AWS), AWS Glue, SQL, Functional Programming, NumPy, Pandas, Technical Leadership, Consulting, Mentorship & Coaching, Big Data, PostgreSQL

Full-stack Data Engineer

2021 - 2022

Greeneffort

定义、研究并决定在发票中执行OCR的提供者. 创建数据管道，通过OCR从系统中移动发票，并最终将元数据留在DB中.
为前端创建了整个服务器架构，使用Akka HTTP作为REST API，使用Slick作为DB访问. 不同的服务位于一个GKE集群中.
创建一个本体，用于将不同产品的生命周期影响评估(LCIA)映射到我们的内部数据定义，从而允许对不同产品对二氧化碳消耗的影响进行更丰富的查询.

Technologies: Scala, OpenAPI, OCR, Google Cloud, Semantic Web, Invoice Processing, Kubernetes, Google Kubernetes Engine (GKE), Akka HTTP, Slick, Akka, Functional Programming, Google Cloud Platform (GCP), Technical Leadership, Consulting, Mentorship & Coaching, PostgreSQL

Semantic Web Consultant

2019 - 2021

Dow Jones and Company

为美国破产领域的数据建模开发了本体. 基础是公共核心本体，它被扩展以容纳所有其他概念.
创建了一个编译器，该编译器读取带有模式定义的OWL文件，并创建了Scala代码以编程方式进行管理，并对该本体中的概念进行了完整的类型化.
实现了云数据流管道，可以读取Dow Jones的大量文章, processed them, 并将语义数据摄取到语义数据存储中.

Technologies: RDF, Stardog, Scala, RDFox, Protégé, Ontologies, OWL, Cloud Dataflow, Stanford NLP, Natural Language Processing (NLP), Functional Programming, Google Cloud Platform (GCP), Technical Leadership, Consulting, Mentorship & Coaching, Google BigQuery, Big Data

Lead Data Engineer

2018 - 2019

Nansen

负责实现南森仓库里的dbt模型.
与区块链ETL库合作，分析如何将不同区块链的数据摄取到原始数据湖中.
使用图表DB TigerGraph进行不同的数据分析，以跟踪2018年一些ETH在一个着名骗局中的去向.

Technologies: Python 3, Data Build Tool (dbt), BigQuery, Google Cloud, Blockchain, TigerGraph, Technical Leadership, Consulting, Google BigQuery, Big Data

Lead Data Engineer

2018 - 2018

Coinfi

在Google Cloud中使用气流与Composer创建ETL编排系统.
创建了获取加密数据(价格)的抓取服务, events, and news) to ingest into the platform.
建立dbt模型来报告BigQuery数据集中公开可用的区块链数据.

Technologies: PubSubJS, Data Flows, Apache Beam, Python, Apache Airflow, Data Science, Recommendation Systems, Data Engineering, Web Scraping, Data Build Tool (dbt), SQL, Google Cloud Platform (GCP), Technical Leadership, Consulting

Head of Data Science

2016 - 2018

Stuart

使用Redshift设计公司的数据仓库.
创建预测模型，预测司机登录平台和交付服务.
为复杂事件处理设计了一个事件溯源系统.
部署路线优化算法，根据路线和包裹大小选择司机.
从零开始创建了数据科学团队, led the hiring process, created role definitions, and established OKRs.

Technologies: Akka, Redshift, Apache Kafka, Apache Airflow, Scala, Python, Data Science, Machine Learning, Data Engineering, Artificial Intelligence (AI), Natural Language Processing (NLP), Functional Programming, Pandas, NumPy, Amazon Web Services (AWS), Technical Leadership, Leadership, Mentorship & Coaching

Chief Data Officer

2014 - 2016

Enerbyte

架构从物联网设备获取数据的基础设施.
研究了单测点能量分解算法.
从零开始创建了数据科学团队, leading the hiring process, role definitions, and quarterly OKRs.

Technologies: Apache Kafka, Spark Streaming, Spark, Scala, Python, Data Science, Machine Learning, Data Engineering, Artificial Intelligence (AI), Natural Language Processing (NLP), Time Series, Akka, Functional Programming, Pandas, NumPy, Technical Leadership, Leadership, Mentorship & Coaching

Head of Data Science

2012 - 2014

Softonic

创建了一个基于应用评论文本内容的推荐系统.
使用机器学习和Solr开发了一个改进的搜索引擎.
从零开始创建了数据科学团队. 聘请所有相关人员，建立okr和管理任务.

Technologies: Semantic Web, RDF, Word2Vec, Solr, Recommendation Systems, Spark, Hadoop, Scala, Python, Data Science, Machine Learning, Data Engineering, Artificial Intelligence (AI), Natural Language Processing (NLP), Functional Programming, Data Mining, Pandas, NumPy, Technical Leadership, Leadership, Mentorship & Coaching

Experience

Type Classes Talk

http://github.com/tonicebrian/typeclasses-talk

在我当地的Scala聚会上，我用Scala教授类型课程. We moved gradually, 从基本的直觉和隐喻到范畴概念，比如函子, applicatives, monads, and other beasts.

Education

2009 - 2012

人工智能硕士学位

加泰罗尼亚理工大学-巴塞罗那，西班牙

2009 - 2011

金融产品定量技术研究生学位

加泰罗尼亚理工大学-巴塞罗那，西班牙

Certifications

MAY 2012 - PRESENT

Cloudera Certified Hadoop Professional

Cloudera

Skills

Libraries/APIs

Spark Streaming, Pandas, NumPy, PubSubJS, Python Asyncio, TensorFlow, XGBoost, Stanford NLP, OpenAPI, Slick

Tools

Apache Airflow, Cloud Dataflow, Apache Beam, Amazon Athena, Solr, Apache Avro, Protégé, Google Kubernetes Engine (GKE), AWS Glue, BigQuery

Frameworks

Spark, Akka, Hadoop

Languages

Python, Python 3, Scala, SQL, RDF, Haskell, c++， OWL

Paradigms

函数式编程，数据科学，响应式编程

Platforms

谷歌云平台(GCP)、Apache Kafka、Linux、Kubernetes、亚马逊网络服务(AWS)、区块链

Storage

Redshift, Cassandra, PostgreSQL, Google Cloud, Redis, Neo4j, Amazon S3 (AWS S3)

Other

Machine Learning, Akka HTTP, Data Mining, Data Engineering, Technical Leadership, Leadership, Consulting, Mentorship & Coaching, Google BigQuery, Big Data, Artificial Intelligence (AI), Crypto, NEO, Data Flows, Recommendation Systems, Word2Vec, Semantic Web, Web Scraping, Natural Language Processing (NLP), Deep Learning, Financial Modeling, Monte Carlo Simulations, Time Series, Data Build Tool (dbt), TigerGraph, Stardog, RDFox, Ontologies, OCR, Invoice Processing

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

Start your risk-free talent trial

与你选择的人才一起工作，试用最多两周. Pay only if you decide to hire them.

Top talent is in high demand.

Start hiring